当前位置:首页 > 绿巨人最新热点 > 正文内容

首个接受同行评审的大语言模型!DeepSeek-R1论文登《自然》封面,作者包括梁文锋

admin3个月前 (09-18)绿巨人最新热点25

9月18日,梁文锋带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。

今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,创始人梁文锋位于署名之列。

《自然》杂志指出,如此总结DeepSeek-R1带来的进步:如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。

DeepSeek的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。DeepSeek-R1模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。

最终它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

在《自然》的Editorial(社论)指出,大型语言模型需要同行评审。《自然》认为,大型语言模型(LLMs)正在迅速颠覆人类获取知识的方式,但最广泛使用的这些模型尚未在研究期刊中接受独立同行评审。同行评审有助于澄清LLMs的工作原理,并帮助评估它们是否真正实现了其宣称的功能。“这一情况随着自然杂志发表DeepSeek-R1模型细节而改变。”

《自然》指出,自1月在Hugging Face上发布R1以来,DeepSeek-R1已夺得该平台复杂问题解决类模型下载量冠军。现在,该模型已由八位专家评审,以评估其工作的原创性、方法论和稳健性。该论文将与审稿人报告和作者回应一同发表。“这一切都是AI行业迈向透明度和可重复性的可喜一步”。

“依赖独立研究者的同行评审是AI行业回击炒作的一种方式。鉴于这项技术已变得如此普遍,无法验证的声明对社会构成了真正的风险。我们希望,出于这个原因,更多AI公司将提交其模型接受评审。”《自然》写道。

论文摘要中表示,推理能力作为人类智能的基石,能够支持从数学问题求解、逻辑演绎到程序编写等复杂认知任务。人工智能领域的最新进展表明,当大型语言模型(LLMs)的规模达到足够程度时,能够展现出包括推理能力在内的涌现性特征,然而,要在预训练阶段实现这类能力,通常需要耗费大量计算资源。

这项研究旨在探索大型语言模型在强化学习(RL)框架下通过自进化发展推理能力的潜力,同时最大限度减少对人工标注的依赖。

具体而言,以DeepSeek-V3Base模型为基础,采用群体相对策略优化(GRPO)作为强化学习框架。奖励信号仅依据最终预测结果与真实答案的一致性来确定,不对推理过程本身施加任何约束。在解决推理问题时,该模型倾向于生成更长的响应内容,在每个响应中融入验证、反思以及对多种替代方法的探索。尽管并未明确教授模型如何进行推理,但它通过强化学习成功掌握更优的推理策略。

今年1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1引爆AI行业,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAIo1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入DeepSeek。

伴随AI大模型行业的日新月异,DeepSeek已经更新出R1以外的新版本,但万众期待的R2尚未面世。此前8月21日DeepSeek正式发布DeepSeek-V3.1,称其为“迈向Agent(智能体)时代的第一步”。

据介绍,V3.1包含三大主要变化。首先,V3.1采用混合推理架构,一个模型同时支持思考模式与非思考模式;其次,V3.1具有更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;另外,V3.1具有更强的Agent能力,通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。

当时,DeepSeek表示,DeepSeek-V3.1使用UE8M0FP8Scale的参数精度。UE8M0FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设。相关表态,一度带动国产芯片算力股价迎来飙升。

9月5日,据外媒报道,DeepSeek被曝光正在开发具备更先进的AI智能体相关功能的人工智能模型,目的是与OpenAI等头部科技公司在技术新前沿展开竞争。目前DeepSeek创始人梁文峰计划在今年四季度发布相关智能体产品。

澎湃新闻记者向DeepSeek内部人士询问此事真实性,对方未给予明确回复,但并未否认此事。

据外媒援引相关消息称,DeepSeek正在开发的智能体强调自主任务处理能力,与传统聊天机器人不同,智能体能够代表用户在最少指令下完成多步骤复杂任务,并根据历史操作持续学习和改进,减少人工干预需求。

2025年被业界称为“AI智能体元年”。8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》)提出,到2027年,率先实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%;到2030年,中国人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超90%。

相关文章

领益智造业绩增长背后:毛利率承压,单季环比数据现隐忧

领益智造业绩增长背后:毛利率承压,单季环比数据现隐忧

界面新闻记者 | 张艺 近期股价放量大涨、市值重返千亿规模的精密结构件龙头领益智造(002600.SZ)披露了2025年中期业绩报告。 领益智造上半年实现营业收入236.25亿元,同比增长...

曹德旺在福耀科技大学开学典礼致辞:教育绝不能脱离实际

2025年9月12日,福建福耀科技大学(以下称“福耀科技大学”)2025级本科生开学典礼在学校明德堂举行。福耀科技大学理事会理事长曹德旺在开学典礼致辞中回顾了他捐资创办福耀科技大学的初衷,他表示,大学...

抖音电商:最近一年累计销售农特产品102亿单

抖音电商发布《2025丰收节抖音电商农产品消费白皮书》显示,2024年9月至2025年9月,平台累计销售农特产品102亿单,日均发出2448万单农特产包裹。近三年,平台累计销售农特产超200亿单,平均...

 

赶上阴雨天,似乎很不巧。毕竟这次要看的是太阳能设施。上海电力学院太阳能研究所赵春江教授自2006年起在自家建了户用光伏电站,以全直流微电网配合储能系统,这套系统前后运转近20年。来到上海松江的别墅区,澎湃研究所研究员望见一块“上海电力大学太阳能研究所实验基地”的牌子,下方是电动汽车充电箱,光伏板则建在屋顶。

赵春江教授家门口。 王昀 图

“今天下雨,就要注意节电。晴天要多用电,但有时小孩不在家,用不掉那么多,就要弃电。”在这套自建的光伏直流微电网系统之下,赵春江教授夫妇依据天气和季节转换,调节自己的生活方式,近20年下来已成习惯——偶尔照顾孙辈,也要考虑能源如何使用。而要适应和减缓气候变化挑战,这种“与自然共生”的切身意识,恰是最为稀缺和可贵的。

在实验室场景之外,户用光储直柔系统能否进入更多城市居民生活?赵教授提到,有一回该片区因施工不慎挖断电缆而停电,邻居发现他家电器照常运转,电动车也能充电,十分羡慕,希望能装一套户用系统。成本算下来并非遥不可及,还可应对不时之需。当下电动乘用车普及,其动力电池作为移动储能单元,户用光储直柔的适用性更是大大拓展。

这正符合能源分布式发展的趋势,也受到

城市需为户用直流小微电网开拓更多场景

 赶上阴雨天,似乎很不巧。毕竟这次要看的是太阳能设施。上海电力学院太阳能研究所赵春江教授自2006年起在自家建了户用光伏电站,以全直流微电网配合储能系统,这套系统前后运转近20年。来到上海松...

马上评|“无语哥”中国行,用幽默连接世界

9月12日,“无语哥”现身上海街头。上海日报图9月9日,“世界第二大网红”卡比·拉梅(中国网民称之为“无语哥”)正式开启中国行,从逛故宫到学做天津煎饼果子,从北京潘家园逛到南京红山动物园。12日,这个...

世卫组织:去年全球霍乱死亡病例增加50%

世界卫生组织9月12日发布消息说,全球霍乱疫情2024年继续蔓延,60个国家和地区报告逾56万病例和逾6000例死亡,分别比上一年增加5%和50%。整体病死率为1.1%。世卫组织统计数据显示,2024...