当前位置：首页 > news >正文

DeepSeek手记：大模型在焦虑什么？

news 2026/5/29 21:03:15

说实话，写这篇文章的时候，我自己都有点分裂。

一会儿, 是充斥各处的消息——某某大模型又获取了几十亿的融资, 某某公司又开放了千亿参数的模型, 某某专家讲强人工通用智能（AGI）在两年内便能达成。紧接着, 是身旁钻研技术的友人, 私底下闲聊, 叹息声比重于笑声。他们所忧虑的, 并非什么“奇点将近”, 而是更为具体、更为繁杂, 而且略微显得有点滑稽的事儿。

好比说, 我那个于头部AI公司投身算法工作的朋友老张, 近来体重增加了十斤。并非源于伙食优良, 而是鉴于他所负责的那个大模型, 每开展一次完整的训练运作, 其所耗费的电费足以抵得上他半年房租的缴纳金额了。公司由于要节省开支, 故而对资源加以严格控制，使得训练周期被大幅拉长。他每日专注凝视着GPU的利用率曲线, 其紧张程度甚于观察股票。

你可晓得, 某些时候, 那种凌晨三点之际, 我会起身爬起来, 目的仅仅是去瞅一眼训练损失有没有降下。可是, 没降下来, 如此一来我就再也没办法睡着觉。

大模型圈最真模样大致应当是这般: 技术美好, 然而昂贵至极, 速度迟缓, 身心疲惫。

大模型为什么烧钱这么厉害？

好多人难以领会, 不就是一个聊天机器装置吗? 为何常常动不动就耗费掉几个亿呢?

就这事而言, 得从大模型的本质开始说起。所谓的“大”, 并非是针对功能方面的大, 而是说参数规模大, 再者就是数据量庞大, 以及算力具备强大的程度。存在一个有着千亿参数的大模型, 单单存储参数这一情况而言, 所需的显存就得达到几百个G。而对于训练这个大模型来说, 需要成千上万数量的英伟达A100或者H100显卡, 并且要持续不间断地运行几个月之久。

取2024年所公开的数据当作例子, 去训练一个千亿级别的稠密模型, 那么单次完整训练方面的成本是大概处于1.2亿到2亿元人民币的这个区间范围之内。况且这单单只是电费以及硬件折旧的费用, 并未将工程师的工资计算在内且没有将数据标注的费用计算也没对实验失败所产生的损耗进行计算。

更加残忍之处在于, 这个成本乃“试错成本”, 你耗费了一亿, 经历了一个月, 然而结果却是模型未收敛, 或者出现了灾难性遗忘, 不好意思，一切需从头再来。

有家创业公司的CTO对我说过这样一句话, 原话是, 我们并非在训练模型, 而是在通过烧钱的方式来获取温暖, 唯一存在的好处在于, 当处于冬天这个时段的时候, 机房的环境确实是比较热乎的。

这话听着心酸，但真实。

开源大模型到底能不能打？

近两年, 开源与闭源之间的争论始终未曾停歇。Meta所推出的Llama系列, 阿里所拥有的Qwen系列, 以及深度求索打造的系列, 呈现出一个个被释放出的开源模型, 其参数涵盖从7B至70B再到上百B, 看上去一幅百花齐放的景象。

然而实际上讲, 开源模型于好多标准评测榜单之上, 同闭源的GPT - 4o或者 3.5相比, 确实存在着差距。特别是于复杂的推理任务方面, 在长文本理解范畴, 以及多轮对话一致性这类情况之中, 差距可不是一点点。

那为什么还要开源？

出于生态考量。你开放一个具备7B规模的模型, 开发者能够以免费方式获取去进行微调后, 应用于自身的程序中。这些负责开发的人会辅助你找出模型里存在的问题之处, 为你呈上改进的各项建议, 甚至于会依据你的模型创造出一些出乎你预期之外的应用形式。这是处于保密状态模型始终无法达成的。

有个做AI应用的朋友跟我说过一段话，我记了很久：

闭源模型仿若一座安保严密的豪华宅邸, 你仅能够隔着围栏去观望, 开源模型仿佛街边的排档, 虽说其装修略微逊色些 , 然而老板会与你交谈, 询问你觉得口味是否合适, 甚至乐意专为你烹制一道菜单上未列的菜品。

这比喻，绝了。

大模型真的理解人类吗？

这个问题，学术圈吵了两年，到现在没吵明白。

有一种观点觉得, 大模型究其根本而言就是很庞大的那种“自回归式填词游戏”, 它压根就不存在理解这回事。当你表述“苹果是水果”的时候, 它接着说出“香蕉也是水果”, 其缘由在于语料之中香蕉和水果共同出现的频率十分高, 这跟理解简直毫无关联。

另一方持有这样的观点, 即此现象下, 当模型的参数规模突破了某个特定的阈值, 这个阈值例如是千亿元, 此时它涌现出多方面的“认知功效”, 像类比归纳的剖析、逻辑演绎的推导, 甚至是具备了部分程度的“心智理论”, 这些能力并非是人类预先写入的, 而是经由数据输入后所呈现出来的。

依照我个人所进行的观察来看, 大模型于自身所处的“舒适区”当中, 呈现出仿若绝顶聪明的专家那般的表现。然而, 一旦跨越出其训练数据所覆盖的范畴, 它便会极为愚蠢地“肆意乱说”。

比如说, 当你要求GPT - 4o去对相对论作出解释时, 它能够为你写出一篇如同论文般篇幅且内容丰富的回应来。然而, 当你向它询问“昨天下午三点, 处于北京朝阳区那个公园门口的那个人为何哭泣”时, 它就只会进行毫无根据的编造了。

从本质上说, 大模型置身于存于过往的人类知识范畴之中, 并不存在真切的当下感知。它仿若一位记忆力超凡的学者, 然而却欠缺自身的感官以及情绪。当你向它提出“你孤独吗”这一问题时, 依靠语料中的表达形式, 它能够模拟出具备孤独者神态的口吻。可是, 那个所谓的“孤独”, 它从未有过实际体验, 就连一秒钟都未曾经历过呢。