午夜av在线-免费在线成人网-91精品国产欧美一区二区成人-四虎精品在线-中文天堂av-日韩在线免费播放-亚洲另类自拍-日本熟女一区二区-国产第一精品-激情专区-在线免费观看的av-奇米四色网-免费看污视频的网站-伊人22综合-在线观看一区二区三区视频-日韩中文字幕国产-欧美一级少妇-青青青青青青青青草-国产免费的av-日本少妇18p

?
快捷導航
ai動態
當前位置:立即博官網 > ai動態 >
DeepSeek-R1 最新發布,劍指 OpenAI o1



  而這次的 R1 模型一出,不僅反駁了之前蒸餾 OpenAI o1 的說法,官方更是直接下場表示:

  值得一提的是, R1 突破了以往的模型訓練形式,完全沒有使用任何 SFT 數據,僅通過純粹的 RL 來訓練模型,這一點說明 R1 已經學會了自己思考問題——這實則更符合人類的思維規則。

  并且在數學、代碼、自然語言推理上更是和 o1 正式版不相上下,在多個基準測試中展現了卓越的性能。

  如果你仍未真切領略到它的強大,那么請注意:它只需付出 o1 五十分之一的成本,卻能收獲 o1 百分之百的效能。

  除了 R1 在幾乎所有的基準測試中性能都優于 o1 的硬實力,再其發布即開源的訓練數據集和優化工具,讓不少網友直呼:這才是真正的 Open AI。

  深度賦智 CEO 吳承霖向 雷峰網(公眾號:雷峰網)AI 科技評論評價: DeepSeek R1 確實厲害,但方法非常簡單,核心其實就三點。

  先說 DeepSeek-R1-Zero,這個模型完全沒有使用任何 SFT 數據,僅通過純粹的 RL 來訓練模型,突破了以往模型在提升推理能力時常依賴于 SFT 作為預訓練步驟的形式。這是大模型訓練中首次跳過監督微調,是此次DeepSeek的核心創新。

  通俗一點講,就是我們不直接告訴模型“應該如何解題”,而是讓它通過自主試錯并從中學習正確的方法,即 Self play。這就像不讓孩子死記硬背公式,而是直接提供題目和評分標準,讓他們在實踐中自行摸索解法。這樣的方式不僅能激發模型的自主學習能力,還可能在探索過程中發現更具創新性的思路。

  但是DeepSeek-R1-Zero這個孩子一直做試錯練習的話,就會有可讀性差和語言混合問題。于是團隊研發推出了 DeepSeek-R1,這個模型在訓練過程中引入了少量的冷啟動數據,即cold-start data,并通過多階段 RL 優化模型,在僅有極少標注數據的情況下,極大提升了模型的推理能力。

  具體來說,冷啟動數據包含數千條高質量的長思維鏈(CoT)示例,通過人工標注和格式過濾(如使用<reasoning>和<summary>標簽),強制模型生成結構清晰、語言一致的內容。其核心優勢在于:

  1、穩定性:為強化學習(RL)訓練提供高質量的初始策略,有效避免早期探索階段輸出的混亂無序,確保訓練過程平穩起步。

  2、可讀性:借助模板化輸出(如總結模塊),顯著提升生成內容的用戶友好性,使用戶能夠更直觀地理解和接受輸出結果。

  這么說吧,雖然孩子做錯題集可以有效提高分數,但是他的答案可能寫得亂七八糟。通過先教模型如何規范地寫步驟和總結,再讓它自由發揮,最終答案既正確又容易看懂。

  除此之外,DeepSeek-R1 Zero還創新了一種很厲害的算法 GRPO,通過采樣一組輸出并計算獎勵的均值和標準差來生成優勢函數,從而優化策略。這種方法避免了傳統 PPO 中需要額外訓練價值模型的高成本,讓模型能夠自主探索復雜的推理行為,比如長思維鏈、自我驗證和反思。

  這種純強化學習訓練方式在數學(AIME 2024 的 Pass@1 從 15.6% 提升至 71.0%)和代碼任務中取得了顯著提升。簡單來說,就像讓機器人通過“試錯”學習解題,而不是依賴例題,最終讓它學會了復雜的解題步驟,表現非常出色。

  最后,團隊還分享了他們在實驗中遇到的很多失敗嘗試,并表示雖然在過程獎勵模型以及蒙特卡洛樹搜索算法上團隊都沒有取得研究進展,但這并不意味著這些方法無法開發出有效的推理模型。

  值得一提的是, R1 在訓練時甚至還出現了“頓悟時刻”,就像我們在解難題時突然“靈光一閃”,模型在訓練過程中也自發地學會了“回頭檢查步驟”。這種能力并非程序員直接教授,而是在算法通過獎勵正確答案的機制下,自然涌現的。



 

上一篇:中傳聯合新浪發布《中國智能媒體發展報告》 展
下一篇:GPT未竟的革命,由o1接棒:或是LLM研究最重要的發
?

服務電話:400-992-1681

服務郵箱:wa@163.com

公司地址:貴州省貴陽市觀山湖區金融城MAX_A座17樓

備案號:網站地圖

Copyright ? 2021 貴州立即博官網信息技術有限公司 版權所有 | 技術支持:立即博官網

  • 掃描關注立即博官網信息

  • 掃描關注立即博官網信息