久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩定性與探索能力

每日快訊
2025
08/21
17:57
分享
評論

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是,很多中小規模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平,并完整公開了訓練細節與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術創新是Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓練穩定性的同時,大幅提升探索能力的強化學習優化方法。

傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中,clip是控制訓練穩定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發現,clip 機制在保護穩定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。

在與現有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現出優勢。

數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素,為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線:

·SFT階段:質量優先,數據可靠性比數量更重要

實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優勢。

高質量數學數據Top-K子集組合對監督微調(SFT)性能的影響。

·SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現。

通過三組實驗分析了數據正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現差異。表格中加粗數值標識了各組內的最優性能結果。

·RL階段:軟獎勵優于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

·RL階段:代碼數據測試用例過濾

在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留

在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對比。Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

THE END
廣告、內容合作請點擊這里 尋求合作
理想汽車
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

相關推薦

1
3
久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区
欧美日韩在线直播| 欧美日韩在线播放| 国内精品国产三级国产a久久| 99re66热这里只有精品3直播 | 欧美极品另类videosde| 国产精品系列在线观看| 久久理论电影网| 大白屁股一区二区视频| 亚洲三级电影全部在线观看高清| 97精品电影院| 日韩av午夜在线观看| 久久亚洲捆绑美女| 色婷婷香蕉在线一区二区| 亚洲午夜久久久久久久久久久| 欧美高清激情brazzers| 国内精品久久久久影院色| 日韩一区欧美一区| 欧美日本一区二区| 国产99精品视频| 午夜欧美一区二区三区在线播放| 久久一日本道色综合| 欧美调教femdomvk| 国产成人h网站| 日韩av一级片| 中文字幕一区二区三区不卡| 欧美一区二区在线视频| 成人在线综合网站| 美女脱光内衣内裤视频久久网站| 国产精品三级久久久久三级| 日韩一区二区在线播放| 成年人网站91| 国产一区二区三区观看| 日韩精品高清不卡| 亚洲最新在线观看| 国产欧美日本一区二区三区| 欧美日产在线观看| 丁香五精品蜜臀久久久久99网站 | 亚洲欧美日韩综合aⅴ视频| 欧美精品123区| 欧美私人免费视频| 一本到高清视频免费精品| 国产乱人伦精品一区二区在线观看| 香蕉影视欧美成人| 亚洲靠逼com| 国产精品美女久久久久av爽李琼| 日韩精品中午字幕| 91麻豆精品国产91久久久久| 欧美日韩一区视频| 欧美日韩国产成人在线免费| 一本一本久久a久久精品综合麻豆| 成人午夜免费电影| 成人一区二区三区| 成人激情av网| 91网站在线播放| 色哟哟在线观看一区二区三区| 91麻豆精品秘密| 91蝌蚪porny九色| 欧美中文字幕一二三区视频| 欧美伊人久久久久久午夜久久久久| 在线中文字幕一区二区| 欧美日韩一区在线| 欧美变态口味重另类| 国产欧美视频一区二区| 国产欧美一区二区精品仙草咪| 久久久精品综合| 中文字幕亚洲在| 无码av免费一区二区三区试看| 日本视频一区二区三区| 精品一区二区三区不卡 | 国产一区二区在线免费观看| 国产99精品视频| 欧美人xxxx| 中文字幕乱码日本亚洲一区二区| 亚洲男人天堂av网| 久久99国产精品久久99| 99免费精品在线观看| 欧美一区二区三区四区视频| 久久婷婷国产综合国色天香 | 国产精品美女久久久久久久久| 一区二区三区在线免费视频| 美女高潮久久久| 99久久精品国产一区| 欧美日韩不卡一区二区| 欧美激情在线一区二区三区| 视频一区二区欧美| 99久久免费精品| 精品成人佐山爱一区二区| 一区二区三区日韩精品视频| 韩国一区二区在线观看| 欧美亚日韩国产aⅴ精品中极品| 精品国精品自拍自在线| 亚洲主播在线观看| 波多野结衣在线aⅴ中文字幕不卡| 欧美视频精品在线观看| 国产精品久久久久一区| 经典一区二区三区| 欧美一卡二卡三卡| 五月天国产精品| 欧美日韩精品一区二区三区蜜桃| 中文字幕一区av| 不卡的av在线播放| 国产精品丝袜91| www..com久久爱| 国产精品无圣光一区二区| 国产一区二区在线看| 欧美一区二区性放荡片| 亚洲第一搞黄网站| 在线看日本不卡| 亚洲香肠在线观看| 91女神在线视频| 亚洲人精品午夜| 欧美羞羞免费网站| 视频一区二区三区中文字幕| 欧美日韩中字一区| 日韩在线一二三区| 777精品伊人久久久久大香线蕉| 亚洲第一成年网| 日韩三级视频在线看| 国产麻豆视频精品| 国产欧美日韩亚州综合| gogogo免费视频观看亚洲一| 亚洲色大成网站www久久九九| 91偷拍与自偷拍精品| 依依成人精品视频| 777色狠狠一区二区三区| 另类小说一区二区三区| 国产亚洲综合性久久久影院| 99久久婷婷国产综合精品电影 | 亚洲人xxxx| 欧美日韩免费视频| 激情五月播播久久久精品| 久久久久国产精品厨房| av电影一区二区| 人人狠狠综合久久亚洲| 国产欧美日韩三区| 欧美视频一区二区在线观看| 激情五月婷婷综合| 亚洲欧美色一区| 久久久久九九视频| 欧美色综合网站| 国产mv日韩mv欧美| 午夜久久久影院| 亚洲欧洲日韩女同| 精品久久久久久久人人人人传媒 | 一本大道综合伊人精品热热 | 亚洲男人天堂av网| 久久影院午夜片一区| 欧美在线啊v一区| 成人精品小蝌蚪| 国产一区二区三区在线看麻豆| 亚洲三级在线看| 国产精品欧美综合在线| 欧美一级国产精品| 欧美网站大全在线观看| 99久久伊人精品| 国产精品中文字幕欧美| 麻豆免费看一区二区三区| 亚洲一区影音先锋| 欧美国产成人精品| 2020国产成人综合网| 日韩欧美色综合网站| 欧美日韩免费观看一区三区| 色爱区综合激月婷婷| 97久久精品人人做人人爽| 成人免费视频国产在线观看| 精品一二三四区| 美女视频黄久久| 国产一区二区三区久久久| 美女视频黄 久久| 久久国产人妖系列| 蜜桃av一区二区| 久久国产精品色| 韩国精品主播一区二区在线观看| 久久精工是国产品牌吗| 国产一区二区三区四区五区美女| 裸体一区二区三区| 精品中文字幕一区二区| 国产精品一区二区不卡| 成人app在线观看| 色综合天天综合| 欧美性高清videossexo| 91精品国产入口在线| xvideos.蜜桃一区二区| 国产精品美女久久久久高潮| 亚洲人成亚洲人成在线观看图片| 亚洲色图一区二区三区| 日本成人在线视频网站| 国产91色综合久久免费分享| 91日韩在线专区| 日韩欧美一区电影| 国产精品女同互慰在线看| 亚洲一区二区欧美日韩| 热久久久久久久| 99久久精品99国产精品| 欧美美女视频在线观看| 久久九九久精品国产免费直播| 亚洲三级电影全部在线观看高清| 日韩精品高清不卡| 91在线国内视频| 国产亚洲成年网址在线观看|