AI大模型战火延续:大厂稳住阵地,“六小虎”走到分水岭|回望2024⑦
界面新闻记者 | 伍洋宇
界面新闻编辑 | 刘方远
2024年,AI大模型的战火不熄,反而愈演愈烈。
相较于2023年一片混沌的百模大战,行业在经历一年洗牌后,开始呈现出更清晰的市场格局。
互联网大厂们各自建立起了相对成熟的模型能力,在扩张云业务的基础上,开始向自己的既有产品体系渗透。不仅是AI原生应用,部分原有应用与AI大模型的适配度也极高,这将是大厂进一步巩固自己护城河的地方。
而对标OpenAI的中国大模型创业“六小虎”,或艰难或顺利地陆续完成了这一年的关键融资,获得继续留在牌桌上的资格。与此同时,各家对于模型侧与应用侧的方向选择显现差异化,其各自的不同商业化脉络开始成型。
值得关注的是,其中谁的选择停留在了大厂射程内,而谁的选择人迹罕至但异常坎坷。
此外,在端侧模型、视频模型等赛道,仍有其他创业公司展现出了不俗活力,它们都有可能是各自细分领域的核心竞争者。
互联网大厂:备好基座模型能力,向业务渗透
百度文心一言
作为最早入局AI大模型的互联网大厂,百度的模型与产品此前并未得到与之匹配的认可和声量,它这一年仍在努力自证。
在模型侧,目前文心大模型矩阵包括ERNIE 4.0 Turbo等旗舰大模型、ERNIE Speed等轻量模型,以及基于基础模型生产的系列思考模型和场景模型。根据百度披露的数据,文心大模型日均调用量超15亿,相较一年增长约30倍,用户规模达到4.3亿。
在产品侧,文心一言App上线一年之际,百度在9月官宣该产品升级为“文小言”,定位“新搜索”智能助手,希望从富媒体搜索、多模态输入、记忆、自由订阅等能力体现出差异化。据官方数据,截至9月,文小言月活跃用户达到千万级别,累计调用量超过20亿次。
另外,在百度的核心业务场景下,其大模型最为强调的是知识增强、检索增强以及智能体等技术。对此,百度还发布了检索增强的文生图技术iRAG,以及多智能体在代码场景里的应用秒哒和文心快码。
这一年,百度对于AI大模型应用的战略抉择也愈发清晰。
对于看起来极为火热的视频模型领域,李彦宏在一场内部讲话中明确表示,不会投入Sora这类投入周期太长且10-20年没有业务收益的视频生成模型。
与之相对应的是,李彦宏公开强调了智能体应用方向的价值。他表示,过去24个月AI行业最重要的变化是大模型基本消除了幻觉,“智能体是AI应用的最主流形态,即将迎来它的爆发点”。
阿里通义千问
过去一年,通义千问的核心动作是对标Llama系列,从性能和丰富度上,拉高国内开源模型的整体水平。
9月云栖大会,阿里云发布通义千问新一代开源模型Qwen2.5,其中旗舰模型Qwen2.5-72B性能超越Llama 405B,其余模型尺寸包括0.5B、1.5B、3B、7B、14B、32B,几乎覆盖从端侧到工业级全场景。
随之而来的一系列开源模型还包括语言模型Qwen2.5、视觉语言模型Qwen2-VL-72B、编程模型Qwen2.5-Coder、数学模型Qwen2.5-Math等,累计上架超100个。12月,阿里云又发布了开源多模态推理模型QVQ-72B-Preview。
至此,通义千问Qwen被认为是仅次于Llama的世界级模型群,在商业考量上,这是为充分适配各种场景的开发者和中小企业需求。根据官方数据,截至9月中旬,通义千问开源模型累计下载量已突破4000万,衍生大模型超5万个。
阿里旗下另一个值得关注的AI业务在于夸克。
定位“AI全能助手”的夸克,在今年发布了PC端产品,重点升级了AI搜索、AI写作、AI PPT、AI文件总结等一系列主打效率提升的功能。实际上,夸克的存量用户与AI应用的用户画像高度吻合 ,这款应用如何利用大模型取得增益,也会是阿里AI战略未来的一个重要看点。
腾讯混元
在一众大厂大力投入AI大模型的趋势中,腾讯混元被认为今年在基座模型和产品应用上有所掉队,不过其多模态能力仍是亮点。
这一年,它最突出的能力体现在视频生成领域。12月,腾讯混元大模型宣布正式上线视频生成能力,并开源该130亿参数量视频生成大模型,这也是当前最大的视频开源模型。在众多测试中,其生成视频在质感和语义理解等方面有较高水准的表现。
至此,腾讯混元系列模型包含文本大模型,AI绘图大模型,3D生成大模型以及视频模型。其他模型进展上,腾讯于9月发布混元Turbo,于11月开源混元Large和混元3D生成大模型Hunyuan3D-1.0。
基于腾讯自身的业务积累和优势,多模态大模型或将是其大模型业务的最大看点。
今年7月WAIC上,腾讯集团副总裁蒋杰表示,大模型行业正从最初的单模态向多模态过渡。对于腾讯混元大模型,多模态是一道必答题,混元正在积极部署多模态到全模态的技术,很快将在腾讯元宝App、腾讯内部业务及场景中体验,同时会通过腾讯云向外部应用开放。
字节豆包
字节跳动就算曾经对AI大模型重视不够,在这一年也穷追猛补回来了。
在模型侧,目前豆包系列已包含通用模型Pro,音乐模型,文生图模型,3D生成模型,视频生成模型PixelDance和Seaweed等等,覆盖文本、语音、图片及视频等多模态能力。近期,字节再度发布豆包视觉理解模型,加强了模型的视频识别与理解能力。
这一年,字节还通过降价等方式加速了大模型在应用端的使用。在今年年中的API降价潮中,字节跳动是第一个跟进的大厂,并且力度出奇,直接将大模型从以分计价带到以厘计价时代。12月,字节又将豆包视觉理解模型价格降至0.003元/千Tokens,比行业平均价格降低85%。
据字节透露,豆包大模型12月日均tokens使用量超过4万亿,较5月发布时期增长超过33倍。
在模型性能和产品投流的共同支持下,字节豆包App在2024年成为日活断层领先的AI应用。据数据分析机构QuestMobile,豆包App今年9月的日活已达760万,同应用场景的其他产品日活级别均在一百万级别上下。
在应用侧,字节跳动已经打造了自己的AI应用舰队。除去豆包和即梦两大头部产品,字节旗下已有十几款AI应用,几乎完全覆盖AIGC、Agent等所有主流方向。另外,字节还通过Ola耳机切入AI耳机,并已在AI眼镜等智能硬件品类上蓄势待发。
六小虎:留在牌桌上,找到活下去的路
智谱AI
在“六小虎”中,智谱AI的To B(面向企业)定位依旧明确。
过去一年,智谱相继发布新一代基座大模型GLM-4和GLM-4-Plus,在多模态上推出了视觉模型GLM-4V,视频生成模型CogVideoX,以及端到端情感语音模型GLM-4-Voice。
在开源水平上,除了GLM-4-9B和CogVideoX两款主力模型外,智谱共开源ChatGLM等50余款模型,全球下载量超过3000万。
进入年末,智谱在Agent战略上发布重要成果AutoGLM,以“人类历史上首次用AI发红包”引起一阵热度,并同时推出推出GLM-PC,开启“无人驾驶”PC的技术探索。
值得关注的是,智谱AI是少见的主动披露商业化收入及增速的大模型创业公司。
智谱AI今年商业化收入增长超过100%,平台日均Tokens消耗量增长150倍。其C端产品智谱清言App拥有超过2500万用户,年化收入(ARR)超千万。
月之暗面
月之暗面大概是所有创业公司中,在产品层面唯一能够正面对抗字节跳动的存在。
回头看,它今年最重要的动作是聚焦Kimi,并把“长文本”这个标签做到了极致。今年3月,Kimi Chat将上下文输入限制突破至200万文字,产品热度一度致其小程序宕机,甚至在二级市场形成Kimi概念股板块。
这股热度一直延续至今。尽管在用户活跃度层面,Kimi与豆包之间相差一个数量级,但它已经基本与文小言持平,并超越一众创业公司的同类应用。
不过,在应用层,月之暗面已经暂时收缩了C端(个人用户端)的出海战略。月之暗面表示,这是公司主动选择做减法,将更加聚焦Kimi的开发。
进入年末,尽管身陷创始人风波,但月之暗面仍在Kimi Chat一周年时发布了新一代数学推理模型,其数学能力对标OpenAI o1系列。
融资层面,去年还不算突出的月之暗面,在2024年完成了自己的站位转变。今年2月,阿里巴巴入局,公司完成一轮超十亿美金融资,以25亿美金估值站稳行业第一梯队。8月,腾讯跟进投资,月之暗面融资规模超过110亿元人民币,以33亿美金刷新大模型创业公司估值最高纪录。
Minimax
Minimax今年的优势相对明显,其C端应用已初具矩阵形态,并在出海战略上颇为成功。
在国内和海外,海螺AI、星野、Talkie已成为其认知度较高的产品。根据Sensor Tower的数据,Talkie在美国免费娱乐类应用榜上排名第五,全球月活跃用户数已达1100万。此外,根据QuestMobile数据,星野活跃率达到25.7%,月人均使用天数为7.7天。
这些产品热度带来了实在的商业化进展。据英国金融时报,Minimax今年的ARR收入或达7000万美金。
模型侧,Minimax在4月推出万亿参数MoE大语言模型abab6.5,多模态方面,8月推出音乐生成模型与视频生成模型。并且,Minimax的视频生成能力颇有后来居上的态势,在可信度上表现突出,与快手可灵、字节即梦均有可比性。
从基座模型进展来看,采用新一代技术的“abab7”系列文本模型,以及o1类产品,将是Minimax在明年上半年的重大看点。
融资方面,今年3月,MiniMax完成B轮的6亿美元融资,投资方为阿里巴巴,其估值达到25亿美元。
百川智能
“六小虎”中,百川智能在AI应用场景层面的战略选择最为明确。
今年5月,百川智能发布最新一代基座大模型Baichuan 4,并推出成立之后的首款AI助手“百小应”。
Baichuan 4仍是一个数千亿参数级别大模型,相较Baichuan 3,其通用能力提升超过10%,数学和代码能力分别提升14%和9%。“百小应”定位于专业AI助手,功能涉及整理资料、辅助创作、多轮搜索等。
而后,百川智能重点投入医疗大模型,目前已在儿科领域取得一定进展,与儿童医院合作推出了“一大四小”医疗产品。
王小川强调,医疗应用需要精准和高效的智能支持,因而提升模型智力的上限对于医疗领域尤为重要。
关于大模型公司可能放弃“预训练”的传闻。他明确表示,中国的大模型公司仍需坚持“预训练”这一战略,因为这是国家战略资源的一部分。与海外通过超级平台推动预训练不同,中国的预训练更多依赖于场景驱动,而医疗正是一个理想的应用场景。
融资方面,百川智能今年完成了A轮融资,总融资金额达50亿元,公司表示将以200亿元估值开启B轮融资。
零一万物
虽然在外界看来,零一万物的高管团队在今年发生了动荡,但这家公司目前在模型层和应用层也梳理出了自己的明确方向。
今年上半年和下半年,零一万物分别发布千亿参数模型Yi-Large,以及最新旗舰模型Yi-Lightning,后者在国际权威盲测榜单LMSYS上排名世界第六。
在应用层,经历B端和C端产品试水以及海内外业务同时推进后,零一万物在趋紧年末的节点捋出了更适合自己的清晰打法。
C端产品上,零一万物面向海外市场的Pop AI,有望继续为其产生稳定现金流,而面向国内市场的AI智能助手“万知”将维持基础运营,并在未来伺机寻找其他增长机会。
8月,消息称零一万物完成新一轮融资,金额达数亿美元,此轮融资参与方包括某国际战投、东南亚财团等多家机构。
阶跃星辰
阶跃星辰的低调作风延续了一整年。虽然市场舆论有所看衰行业发展,但这家公司仍然坚定AGI目标与基座模型预训练。
在模型层,阶跃星辰今年率先发布了行业首个万亿参数级别MoE大模型Step-2,并推出了Step-1V多模态理解⼤模型。
据统计,过去10个月,公司一共发布了11个自研基座模型,包括千亿、万亿参数的语言大模型,图像、视频理解大模型,图像、视频生成大模型以及不久前发布的国内首个端到端千亿参数语音模型。
商业化方面,阶跃星⾠执行的是“超级模型+超级应⽤”战略,通过⾃研和⽣态合作的模式面向C端市场发布产品,目前已有AI智能助手跃问、AI开放世界冒泡鸭,以及在⾦融财经、内容创作、智能终端等领域与各企业合作完成的AI应用。
接近年末,阶跃星辰成为2024年最后一家传出融资消息的“六小虎”。
12月这轮融资后,其总融资金额达数亿美元,新一轮核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等,但仍未透露估值信息。
牌桌上还有这些玩家
面壁智能
作为端侧大模型玩家的代表,面壁智能的行业站位突出且明确。
2月,面壁智能开始推出端侧大模型小钢炮MiniCPM系列,并于9月发布4B版本MiniCPM 3.0 文本模型,在自然语言理解、知识、代码、数学等能力上可达到GPT《澳门tyc导航》-3.5水平。
多模态方面,面壁智能8月发布8B版本MiniCPM-V 2.6多模态模型,首次将超清OCR识图、实时视频理解等能力集成到端侧。
据统计,面壁小钢炮MiniCPM系列累计下载量400万。
12月,面壁智能完成新一轮数亿元融资。
对标Sora的创业公司们:生数科技、爱诗科技
AI视频生成是这一轮大模型创业中格外火热的一条赛道,在这里竞争的不止有互联网大厂和“六小虎”。
生数科技在商业化层面瞄准了影视、文化、泛娱乐等领域。今年4月,公司推出长视频大模型Vidu,以一键生成32s视频,同时支持4D、音视频融合生成等特性产生了一定热度。11月,Vidu 1.5版本上线,进一步攻克视频模型多主体一致性难题。
爱诗科技是另一个重要代表,创始人王长虎曾担任字节跳动的视觉技术负责人。
今年2月,爱诗科技核心产品PixVerse上线,产品增速一度迅猛,4月其视频生成总量超越1000万。11月,PixVerse毒液变身特效在抖音走红。截至目前,PixVerse全球用户数超1200万,月活跃用户数近600万。
12月,爱诗科技宣布完成A2至A4轮融资,总金额近3亿元人民币。
责任编辑:石秀珍 SF183