抢夺资金、人才、用户 AI“六小虎”进入“破局时刻”

一石激起千层浪。当DeepSeek 以迅猛之势搅乱 AI 江湖的原有格局之后，之前独领风骚的AI “六小虎” 正面临“破局”的关键时刻。

某央企技术负责人对创投日报记者表示，“DeepSeek给业界指了“一条明路”：使用以GRPO为代表的强化学习，加上高质量Long CoT数据，理论上可令任意通用大模型显著提升其推理能力；在部分细分领域，哪怕1.5参数量的模型，经训练后也可打到媲美o1的效果，这使得大模型训练与推理的算力资源成本大大降低。”

最新消息显示，字节CEO梁汝波已反思Deepseek，称跟进速度不够，今年要追求智能上限。OpenAl首席执行官SamAltman也宣布GPT 4o升智，智力要达到o3 pro水平，并表示更新后的GPT 4o还是最好的AI搜索产品。

这意味着2025年大模型领域，将迎来一场全方位的竞争。然而，面对单次预训练300万美元的烧钱门槛、8位数年薪的人才争夺战、以及用户留存与投流成本的剪刀差，以及DeepSeek的搅局、大厂的追击，在资金储备、人才密度与用户增速的路上，AI“六小虎”亟需自行探明。

DeepSeek来了，Kimi首当其冲？

在DeepSeek崛起之前，AI“六小虎”在大模型领域崭露头角，吸引了大量资本注入。

财联社创投通数据显示，2024年AI“六小虎”融资火爆。其中，月之暗面先后完成超13亿美元融资，投后估值高达33亿美元，约220亿元；智谱同样表现亮眼，2024年完成三轮融资，累计融资额保守估计超40亿元，估值水平也跻身200亿元水平。

但高昂的训练成本，对于资金相对薄弱的AI “六小虎”而言，仍是巨大挑战；另一方面，为抢占用户心智的巨额投流，也让C端营销成本不断攀升。

一位投资人告诉创投日报记者，由于月之暗面的Kimi与DeepSeek均涉及国内to C领域大语言模型，且在技术路径上，Kimi与DeepSeek完全不同。因此，在这波冲击中，Kimi尤为受到关注。

创投日报记者了解到，在技术路线上，智谱、百川智能、零一万物、MiniMax、阶跃星辰，与DeepSeek一样，都采用了MoE（混合专家）模型，进行训练。

在C端产品对垒中，DeepSeek-R1模型发布的同一天，1月20日Kimi也发布了Kimi k1.5，并强调超长逻辑链能力，将强化学习的上下文窗口扩展到128k。

一位不愿具名的投资人向创投日报记者分析，“128k是指模型‘窗口’的大小，虽然含义是12.8万个token，但考虑到输出性能，比如背后调用多少算力，且每家模型的token计费逻辑不同。在DeepSeek开源情况下，对应Kimi的投流，Kimi k1.5的总体成本应该高于DeepSeek。”

“此外，DeepSeek的‘思考’部分很长，在用户提出同样问题时，DeepSeek的输出长度可能是别人的好几倍。这也可能使得Kimi即便投流，依然陷入获客成本很高的境地。”

用户活跃度上，Kimi的C端领域标杆产品，月活已受到冲击。第三方榜单显示，1月份，豆包以7861万MAU位列大模型C端产品榜首；第二名则是DeepSeek，为3370万MAU；Kimi则位列第三，MAU为1943万。

或许正因如此，在原金沙江投资人、月之暗面联合创始人张予彤也做出发声。

近日，她在朋友中圈称，很高兴Kimi新版本上线后用户量又创新高：一是长文本+推理，让搜索问答更全面，及时、准确；二是多模态能力，文字+图像输入，让Kimi能看懂现实世界的复杂问题。

“创新基础模型架构”打响人才、资金之争

在各公司纷纷接入DeepSeek之时，对于大模型创业公司来说，逼迫“基础模型架构创新”的时刻已到来。

多位投资人告诉创投日报记者，大模型的核心依然是技术创新。“这需要加大研发投入，探索多模态融合、强化学习等新技术路径，以提升模型性能和智能化水平。”

归根结底，这是一场“人才”的竞争。

某产业机构投资人士表示，人才的价值，一是在于能及时调整和优化模型，寻找新的架构方向。此次字节这么快推出全新模型架构，依赖的也是人才的壁垒，让企业“跑得更快”；二是，面向应用端的有效落地，比如AI for Science、AI陪伴，AI视频等，顶尖人才的汇聚，能够在高价值领域快速构建价值产品，实现商业模式快速验证与直接创收。

字节得以迅速推出的稀疏架构，很大程度上也得以于它在AI人才上的积累。2024年，张一鸣已亲自下场挖人，包括原阿里通义千问大模型技术负责人周畅加入字节，年薪高达8位数。此外，零一万物原联合创始人和预训练负责人黄文灏也选择加入；智谱AI等公司中多名顶尖AI工程师和研究人员也被传已跳槽至字节。

引领当前行业风潮的DeepSeek，更是以擅于挖掘人才著称，并且仍在以百万年薪“招兵买马”。而DeepSeek创始人梁文峰，本身也是浙大“学霸”，为“极致技术理想主义者”。

此外，传统大厂庞大的研发团队、海量数据资源，也让“六小虎”感到压力。“尤其是，大厂们不断推出AI新产品和服务的能力，以及在基础设施建设、产学研合作等方面优势明显，让行业竞争加剧。”上述产业机构投资人士认为。

与此同时，资金实力也是不下“牌桌”的关键一环。

李开复曾公开透露，一次预训练成本约三四百万美元，即便是成本更低的Yi-Lightning，在训练时也用了2000张GPU，耗时一个半月，花费三百多万美元。这意味着在大模型预训练上，烧钱是公认的事实。

在这方面，相较于“六小虎”而言，大厂、DeepSeek均实力雄厚。多位投资人表示，“由于有了成本比较，大模型创业公司的后续融资，或许与预期算力消耗有关”。

双重夹击下的“破局”时刻

DeepSeek、大厂的双重夹击，让AI “六小虎”不得不寻找“破局”之法。

零一万物已做出选择。在年初回应部分团队并入阿里的消息的采访中，李开复表示，去年5月发布Yi-Large模型时，团队已经意识到，模型在速度和性价比上存在不足，并在当时就决定放弃了原计划开发的超大杯模型Yi-X-Large。

随着进入B端市场，李开复认为，零一万物2025年的机会是挖掘 To B 大模型的PMF。

智谱CEO张鹏在回复创投日报记者采访时称，“将All in AGI，其他的都是路径。而在路径上，智谱AI每天都在优化。”

MiniMax方面，1月15日，其已发布并开源新一代01系列模型，相比Kimi k1.5的12.8万个token，01系列模型支持最多400万个token的上下文输入；百川智能则专注于大模型在医疗领域的应用落地，近期其与国家儿童医学中心北京儿童医院签署战略合作协议，双方计划共同推出“一大四小”共5款AI医疗产品。

某央企技术负责人在接受创投日报记者采访时表示，“DeepSeek的模型架构和训练模式，证明了大模型在推理过程中，可生成大量高质量训练数据，这再次印证了行业对‘合成数据’的价值共识，即构建的模型越被使用，高质量数据越多。”

“因此，谁拥有更多用户，谁就将拥有更多高质量的数据，实现‘左脚踩右脚’式的模型迭代。”该央企技术负责人称，也正是这种“自我强化”飞轮效应，使得DeepSeek实现了“正循环”，并以相对优势持续突破技术天花板。

在融资上，另有投资机构人士对创投日报记者表示，面对DeepSeek技术、开源的优势，AI“六小虎”亟需证明自己的产品，特别是“用户数”和“留存用户数”两个关键指标。如果没有规模增长用户留存数，其产品、技术、模型能力可能受到质疑，为后续融资埋下隐患。

另一产业机构投资人告诉创投日报记者，大模型的“特色价值”是关键：“估值的下限是企业实力与影响力。对大模型企业而言，一定要从最基础、最本质的模型下手，提升模型效果，使得其在高价值场景的具有突出能力、牢固占据板块，拥有稳定的市场基本盘（即用户数），而这通常要求企业有强大的资金储备或融资能力，且与成本优化、人才队伍及企业愿景息息相关。”

“大模型公司估值的上限，则是企业服务的应用领域。大模型本身不是创收与壁垒的高地，只有聚焦高价值应用场景，比如医药领域AI For Science等，并在市场形成稳固的产品与业务壁垒，才是获取资本信任与长期价值的关键。”

在这方面，智谱、百川智能已在采取进一步行动，除了在自身业务上聚焦外，这两家公司还纷纷成立投资基金，以带动产业链上下游，以推进应用场景的落地。

文章来源于网络。发布者：广众网，转转请注明出处：https://www.zmdnky.org.cn/article/10205.html