• 首页
  • 上一页
  • 目录
  • 下一页
  • 书架

《高二分科,我选校花也选亿万身家》

第397章 这个黄毛,他懂AI
设计上的浪费,不是数据和算力能补回来的。”

    “你说的这个问题,”

    任少卿的眉头拧了一下,

    “在卷积结构里,局部感受野决定了模型必须平等对待每一个特征图的位置,这是结构本身的天花板,目前没有好的解法。除非……”

    他沉默了两秒,

    “你是想让模型学会‘选择性注意’?而不是对每个输入都倾尽全力?”

    顾屿眉毛微微一挑。这家伙,触到边了。

    “差不多。”

    顾屿说。

    任少卿彻底闭上了嘴。

    顾屿靠在椅背上,目光落在走廊另一端透进来的夕阳上。

    2025年初的那个冬夜,为了给公司续命而变卖了所有家产。

    只能缩在北京一间阴冷逼仄的出租屋里盯着融资失败通知书的自己,做的也是这件事。

    堆参数,堆数据,堆算力,堆到搭进去自己的一切,烧光了公司账上最后一分钱。

    当时全球的AI大厂全都陷入了“算力霸权”的迷信里,像硅谷的OpenAI为了训练一个达到顶尖效果的GPT-4模型,光是纯硬件算力就疯狂烧掉了一亿多美金!

    那简直是组建了一支几万人的重装钢铁洪流,用铺天盖地的钞票硬生生砸开技术的大门。

    然后,DeepSeek的技术报告横空出世了。

    满打满算,不到六百万美元!

    连人家巨头一个零头都不到的训练成本,却打出了一个在各项核心测试上媲美甚至超越上亿美金模型的极限成绩,一纸报告,直接让全世界的同行闭嘴。

    这其中的差距,用个最通俗易懂的比喻来说:

    同样是做一桌极其复杂的满汉全席,硅谷巨头就像是个不差钱的傻大款,花天价雇了十万个米其林三星主厨。

    结果呢?

    不管是烹饪极品鲍鱼,还是在后厨切大葱、洗盘子,全都让这帮拿着天价年薪的主厨去干。

    而DeepSeek的打法,是极其精打细算的“扫地僧”。

    它只留极少部分核心主厨在最关键的位置,剩下的全是切菜工和帮厨。

    系统一旦拿到任务。

    点个拍黄瓜,直接丢给切菜工去干;点个佛跳墙,主厨才下场。

    它通过极简的底层算力优化和MOE(混合专家架构),绝不浪费哪怕一滴多余的算力。

    顾屿当时读完那份报告,在椅子上坐了很久。

    不是看不懂。

    是看懂了,才明白。

    那场属于AI时代的终极竞赛,从来不是比谁的肌肉更大,不是比谁更有钱,而是比谁浪费得更少。

    任少卿跑的这条路,在2013年是对的。

    但终点在哪,他恐怕想不到。

    “你现在做的东西,”

    顾屿收回目光,看向任少卿,

    “在2013年是对的。但沿这条路走下去,十年后,你会碰到一堵墙。”

    “什么墙?”

    “规模的边际效益递减。”

    顾屿顿了顿,把那套逻辑往更通俗的地方压,

    “堆到某个临界点之后,你的收益增速会垮,但成本会疯涨。到那时候,别的大厂为了训练一个更好的模型直接烧掉几千万甚至一亿美金,你哪怕卖肾也跟不起。真正的破局,不在更大,在更聪明地用更少。”

    “具体怎么做?”

    任少卿的语气已经完全变了。

    “让模型只用它需要用的那部分脑子去思考,别把整个网络都喊起来处理一个简单问题。”

    顾屿把手从大裤衩的口袋里抽出来,随手在空中画了

    -->>(第2/3页)(本章未完,请点击下一页继续阅读)
  • 加入书签
  • 上一页
  • 目录
  • 下一页
Copyright shukugu.com 返回首页
顶部