Ai大模型疯狂卷出五个关键趋势

发布日期: 2024年12月31日 shopxx

如果对比去年同期，你会发现今年12月是大模型行业的一个热闹峰值。
从11月中旬开始，OpenAI、微软、谷歌、字节跳动、百度和智谱等科技公司都召开了与大模型相关的发布会，推出了一系列新模型、新应用和新产品，其中OpenAI的12天连续直播更是开启了科技公司发布会的新流行。
热闹之下，比起去年技术层和竞争层的种种不确定性，当下模型厂商们的心态和预期好很多。一方面，在技术侧，一场推理AI竞赛已经开打；另一方面，应用层包括AI Agent、搜索等方向也已经明确。
随着OpenAI相继发布o1和o3模型，一场推理竞赛正在模型厂商间展开。
据OpenAI发布的o3系列时给出的评测数据，在数学、编码、博士级科学问题等复杂问题上的表现，o3均展现出了强大的实力，例如在陶哲轩等60余位全球数学家共同推出的最强数学基准的EpochAI Frontier Math中，o3 创下新纪录，准确率高达25.2%，而其他模型都没有超过2.0%。
而在OpenAI没放出o3前，国内外科技公司的目标无疑是追赶o1，谷歌此前发布全新测试模型Gemini 2.0 Flash Thinking。
今年11月，月之暗面Kimi的新一代数学推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite预览版、阿里云通义的QwQ-32B-Preview也相继发布，在一些数学和编码评估表现中，它们的分数比o1还要高。
目前尚不清楚o3是否会为普通用户带来很大帮助，从模型能力来看更适合推编码、数学和科学领域的研究人员，除此以外，推理模型也很昂贵。在Keras之父François Chollet发起的ARC-AGI基准测试显示，尽管o3在高计算模式下得分率为 87.5%，但研究人员在该模式下每个任务花费达到数美元，任务成本很高。
但成本也只是一个相对的概念。近期，清华NLP实验室刘知远教授团队提出了大模型的密度定律（densing law），该定律表明，大约每过3.3个月（100天），就能用参数量减半的模型达到当前最先进模型的性能水平，这意味未来推理成本还会快速降低。
但至少从技术端来看，至少OpenAI再度验证了Scaling Law没有消失，只不过是从预训练端转向了推理端，通过强化学习和更多的思考时间，提升模型的复杂推理能力，这条路是可行的。
对国内外基础模型厂商而言，它们需要追赶的新目标又出现了。

标签:

分销商城开发商城系统软件商城网站建设电商软件系统开发

分享到：

本文链接: https://www.shopxx.net/news/detail/6773447f9194be00018dc59c

B2B2C商城系统

手机商城系统

分销商城系统

B2C商城系统

Ai大模型疯狂卷出五个关键趋势