DeepSeek手记:大模型在焦虑什么?
说实话,写这篇文章的时候,我自己都有点分裂。
一会儿, 是充斥各处的消息——某某大模型又获取了几十亿的融资, 某某公司又开放了千亿参数的模型, 某某专家讲强人工通用智能(AGI)在两年内便能达成。紧接着, 是身旁钻研技术的友人, 私底下闲聊, 叹息声比重于笑声。他们所忧虑的, 并非什么“奇点将近”, 而是更为具体、更为繁杂, 而且略微显得有点滑稽的事儿。
好比说, 我那个于头部AI公司投身算法工作的朋友老张, 近来体重增加了十斤。并非源于伙食优良, 而是鉴于他所负责的那个大模型, 每开展一次完整的训练运作, 其所耗费的电费足以抵得上他半年房租的缴纳金额了。公司由于要节省开支, 故而对资源加以严格控制,使得训练周期被大幅拉长。他每日专注凝视着GPU的利用率曲线, 其紧张程度甚于观察股票。
你可晓得, 某些时候, 那种凌晨三点之际, 我会起身爬起来, 目的仅仅是去瞅一眼训练损失有没有降下。可是, 没降下来, 如此一来我就再也没办法睡着觉。
大模型圈最真模样大致应当是这般: 技术美好, 然而昂贵至极, 速度迟缓, 身心疲惫。
大模型为什么烧钱这么厉害?
好多人难以领会, 不就是一个聊天机器装置吗? 为何常常动不动就耗费掉几个亿呢?
就这事而言, 得从大模型的本质开始说起。所谓的“大”, 并非是针对功能方面的大, 而是说参数规模大, 再者就是数据量庞大, 以及算力具备强大的程度。存在一个有着千亿参数的大模型, 单单存储参数这一情况而言, 所需的显存就得达到几百个G。而对于训练这个大模型来说, 需要成千上万数量的英伟达A100或者H100显卡, 并且要持续不间断地运行几个月之久。
取2024年所公开的数据当作例子, 去训练一个千亿级别的稠密模型, 那么单次完整训练方面的成本是大概处于1.2亿到2亿元人民币的这个区间范围之内。况且这单单只是电费以及硬件折旧的费用, 并未将工程师的工资计算在内且没有将数据标注的费用计算也没对实验失败所产生的损耗进行计算。
更加残忍之处在于, 这个成本乃“试错成本”, 你耗费了一亿, 经历了一个月, 然而结果却是模型未收敛, 或者出现了灾难性遗忘, 不好意思,一切需从头再来。
有家创业公司的CTO对我说过这样一句话, 原话是, 我们并非在训练模型, 而是在通过烧钱的方式来获取温暖, 唯一存在的好处在于, 当处于冬天这个时段的时候, 机房的环境确实是比较热乎的。
这话听着心酸,但真实。
开源大模型到底能不能打?
近两年, 开源与闭源之间的争论始终未曾停歇。Meta所推出的Llama系列, 阿里所拥有的Qwen系列, 以及深度求索打造的系列, 呈现出一个个被释放出的开源模型, 其参数涵盖从7B至70B再到上百B, 看上去一幅百花齐放的景象。
然而实际上讲, 开源模型于好多标准评测榜单之上, 同闭源的GPT - 4o或者 3.5相比, 确实存在着差距。特别是于复杂的推理任务方面, 在长文本理解范畴, 以及多轮对话一致性这类情况之中, 差距可不是一点点。
那为什么还要开源?
出于生态考量。你开放一个具备7B规模的模型, 开发者能够以免费方式获取去进行微调后, 应用于自身的程序中。这些负责开发的人会辅助你找出模型里存在的问题之处, 为你呈上改进的各项建议, 甚至于会依据你的模型创造出一些出乎你预期之外的应用形式。这是处于保密状态模型始终无法达成的。
有个做AI应用的朋友跟我说过一段话,我记了很久:
闭源模型仿若一座安保严密的豪华宅邸, 你仅能够隔着围栏去观望, 开源模型仿佛街边的排档, 虽说其装修略微逊色些 , 然而老板会与你交谈, 询问你觉得口味是否合适, 甚至乐意专为你烹制一道菜单上未列的菜品。
这比喻,绝了。
大模型真的理解人类吗?
这个问题,学术圈吵了两年,到现在没吵明白。
有一种观点觉得, 大模型究其根本而言就是很庞大的那种“自回归式填词游戏”, 它压根就不存在理解这回事。当你表述“苹果是水果”的时候, 它接着说出“香蕉也是水果”, 其缘由在于语料之中香蕉和水果共同出现的频率十分高, 这跟理解简直毫无关联。
另一方持有这样的观点, 即此现象下, 当模型的参数规模突破了某个特定的阈值, 这个阈值例如是千亿元, 此时它涌现出多方面的“认知功效”, 像类比归纳的剖析、逻辑演绎的推导, 甚至是具备了部分程度的“心智理论”, 这些能力并非是人类预先写入的, 而是经由数据输入后所呈现出来的。
依照我个人所进行的观察来看, 大模型于自身所处的“舒适区”当中, 呈现出仿若绝顶聪明的专家那般的表现。然而, 一旦跨越出其训练数据所覆盖的范畴, 它便会极为愚蠢地“肆意乱说”。
比如说, 当你要求GPT - 4o去对相对论作出解释时, 它能够为你写出一篇如同论文般篇幅且内容丰富的回应来。然而, 当你向它询问“昨天下午三点, 处于北京朝阳区那个公园门口的那个人为何哭泣”时, 它就只会进行毫无根据的编造了。
从本质上说, 大模型置身于存于过往的人类知识范畴之中, 并不存在真切的当下感知。它仿若一位记忆力超凡的学者, 然而却欠缺自身的感官以及情绪。当你向它提出“你孤独吗”这一问题时, 依靠语料中的表达形式, 它能够模拟出具备孤独者神态的口吻。可是, 那个所谓的“孤独”, 它从未有过实际体验, 就连一秒钟都未曾经历过呢。
AI会不会让很多人失业?
这是最敏感、也最绕不开的问题。
首先来讲一个数据了, 依据高盛在2024年所出具的一份研究报告来看,在全球范围之内大概存在着3亿个工作岗位可能会被生成式AI部分或者是完全给取代掉这种情况了。受到影响相对最为显著的行业涵盖了翻译、客服、初级编程、插画、法律助理等诸多行业了。
不过在另一方面, 同样的那个报告还做出了预测, 人工智能将会创造出数量众多的全新岗位, 像提示词工程师、AI训练师、数据标注员、AI伦理合规官诸如此类。然而对于这些岗位所产生的净效应而言, 当下并没有确切定论。
在一个技术社群而言, 我曾目睹一场讨论。有人宣称“往后时期程序员将会面临失业状况”, 而后在其下方位置, 有人回复的内容是:
20年前, 有人讲Excel会致使会计失去工作岗位。那后来怎样了呢? 会计并未失业, 只是那些单单只会进行算盘运算的人失业了。
这句话语并没有蕴含什么高深莫测的道理, 然而我察觉它极为准确, AI不会致使人们遭遇失业状况, 可是它会令那些“仅仅会从事重复性工作”的人失去工作, 未来所具备的竞争力, 并非在于你掌握何种技能, 而是在于你可不可以将这些技能与AI相互结合, 从而创造出全新产生的价值。
普通人现在该做什么?
我不知道。真的不知道。
但我觉得有三件事,现在做肯定不亏:
无论是撰写论文, 还是制作PPT, 亦或是编写代码或者撰写文案, 都要去加以运用, 迫使自身能够在行工作流程之中融入AI工具, 持续使用三个月时间, 你将会察觉到自我对于AI的认知全然不同了, 不要去看他人所撰写的测评内容, 而是亲自去进行尝试。
请勿盲目迷信, 人工智能并非无所不能之神, 它时常出现差错, 特别是那种看似颇具道理实则全然错误的幻觉之类情况。要始终秉持批判性思维, 永远将其视作一个看上去较为聪慧的实习生, 而非被奉为无所不能的神灵。
练习一些所谓的“笨功夫”, 人工智能所擅长的乃是总结、归纳以及模仿, 然而它所不擅长的方面包括真实的创作、深度的共情、跨领域的联想以及对未知的直觉, 而这些能力恰恰是人类最为珍贵的, 要多读书, 要多与真实的人进行交流, 要多经历失败, 这些事情人工智能永远无法替代你实现。
在写弄到这般情况的时候, 外面窗外的天空已然呈现出黑的状态了。此时, 我的手机突然产生了震动一下的状况, 那是由老张发送过来的信息哟。
模型最终实现了收敛, 然而损失却相较于预期高高的超出了0.3个点, 今晚将持续进行调参, 下周再见。
我回了一个“加油”,然后把手指放在键盘上,愣了很久。
便是大模型足够强大, 也难以写出老张今晚那般, 混杂着疲惫之情、兴奋之情以及无奈之情的复杂情绪。起码就当下而言, 还是写不出来的。
那就好。
那就还有希望。
