Ai大模型疯狂卷出五个关键趋势
发布日期: 2024年12月31日 shopxx
如果对比去年同期,你会发现今年12月是大模型行业的一个热闹峰值。
从11月中旬开始,OpenAI、微软、谷歌、字节跳动、百度和智谱等科技公司都召开了与大模型相关的发布会,推出了一系列新模型、新应用和新产品,其中OpenAI的12天连续直播更是开启了科技公司发布会的新流行。
热闹之下,比起去年技术层和竞争层的种种不确定性,当下模型厂商们的心态和预期好很多。一方面,在技术侧,一场推理AI竞赛已经开打;另一方面,应用层包括AI Agent、搜索等方向也已经明确。
随着OpenAI相继发布o1和o3模型,一场推理竞赛正在模型厂商间展开。
据OpenAI发布的o3系列时给出的评测数据,在数学、编码、博士级科学问题等复杂问题上的表现,o3均展现出了强大的实力,例如在陶哲轩等60余位全球数学家共同推出的最强数学基准的EpochAI Frontier Math中,o3 创下新纪录,准确率高达25.2%,而其他模型都没有超过2.0%。
而在OpenAI没放出o3前,国内外科技公司的目标无疑是追赶o1,谷歌此前发布全新测试模型Gemini 2.0 Flash Thinking。
今年11月,月之暗面Kimi的新一代数学推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite预览版、阿里云通义的QwQ-32B-Preview也相继发布,在一些数学和编码评估表现中,它们的分数比o1还要高。
目前尚不清楚o3是否会为普通用户带来很大帮助,从模型能力来看更适合推编码、数学和科学领域的研究人员,除此以外,推理模型也很昂贵。在Keras之父François Chollet发起的ARC-AGI基准测试显示,尽管o3在高计算模式下得分率为 87.5%,但研究人员在该模式下每个任务花费达到数美元,任务成本很高。
但成本也只是一个相对的概念。近期,清华NLP实验室刘知远教授团队提出了大模型的密度定律(densing law),该定律表明,大约每过3.3个月(100天),就能用参数量减半的模型达到当前最先进模型的性能水平,这意味未来推理成本还会快速降低。
但至少从技术端来看,至少OpenAI再度验证了Scaling Law没有消失,只不过是从预训练端转向了推理端,通过强化学习和更多的思考时间,提升模型的复杂推理能力,这条路是可行的。
对国内外基础模型厂商而言,它们需要追赶的新目标又出现了。
本文链接: https://www.shopxx.net/news/detail/6773447f9194be00018dc59c