久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩定性與探索能力

每日快訊
2025
08/21
17:57
分享
評論

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是,很多中小規模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平,并完整公開了訓練細節與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術創新是Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓練穩定性的同時,大幅提升探索能力的強化學習優化方法。

傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中,clip是控制訓練穩定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發現,clip 機制在保護穩定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。

在與現有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現出優勢。

數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素,為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線:

·SFT階段:質量優先,數據可靠性比數量更重要

實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優勢。

高質量數學數據Top-K子集組合對監督微調(SFT)性能的影響。

·SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現。

通過三組實驗分析了數據正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現差異。表格中加粗數值標識了各組內的最優性能結果。

·RL階段:軟獎勵優于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

·RL階段:代碼數據測試用例過濾

在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留

在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對比。Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

THE END
廣告、內容合作請點擊這里 尋求合作
理想汽車
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

相關推薦

1
3
久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区
久久久久久久免费视频了| 91在线一区二区三区| 精品国产伦一区二区三区免费| 国产性做久久久久久| 日韩成人一级片| 色一情一乱一乱一91av| 欧美激情一区二区三区不卡| 国产一区欧美一区| 久久久三级国产网站| 国产美女精品在线| 亚洲国产激情av| 91在线视频网址| 一卡二卡欧美日韩| 在线观看日韩高清av| 一区二区三区产品免费精品久久75| 91在线观看下载| 亚洲一区二区综合| 91.xcao| 韩国中文字幕2020精品| wwwwww.欧美系列| 99久久免费国产| 石原莉奈在线亚洲二区| 久久久久久免费| 99在线精品一区二区三区| 亚洲黄色小说网站| 精品久久久久久无| 色中色一区二区| 捆绑调教一区二区三区| 中文字幕日韩av资源站| 日韩午夜在线观看| 92国产精品观看| 久久国产日韩欧美精品| 亚洲欧美综合另类在线卡通| 91精品在线观看入口| 高清不卡在线观看av| 一区二区成人在线观看| 久久免费视频一区| 色又黄又爽网站www久久| 韩国精品主播一区二区在线观看| 亚洲精品v日韩精品| 26uuuu精品一区二区| 欧美日韩免费观看一区三区| 成人sese在线| 韩国v欧美v日本v亚洲v| 午夜精品福利视频网站| 亚洲激情第一区| 国产精品区一区二区三| 精品久久久久av影院| 欧美老肥妇做.爰bbww| 成人动漫在线一区| 国产一区二区三区日韩| 久久99久久99| 国产一区二区伦理| 国内成人自拍视频| 激情久久五月天| 精品亚洲porn| 国产在线麻豆精品观看| 久久97超碰色| 国产传媒欧美日韩成人| 国产精品一区在线观看乱码| 国产精品91一区二区| 国产精品一级黄| 国产成人精品在线看| 国产一区二区福利| 极品尤物av久久免费看| 国内成人自拍视频| 国产成人午夜片在线观看高清观看| 国产乱子轮精品视频| 粉嫩一区二区三区在线看| 成人免费毛片高清视频| 97久久超碰国产精品| 欧美性大战久久久久久久蜜臀| 欧美专区亚洲专区| 欧美一区二区高清| 国产女人aaa级久久久级| 国产精品成人在线观看| 一区二区三区四区在线免费观看| 亚洲啪啪综合av一区二区三区| 亚洲一区二区三区免费视频| 日韩中文字幕一区二区三区| 激情av综合网| 日本乱码高清不卡字幕| 777亚洲妇女| 国产精品国产精品国产专区不片| 亚洲视频免费观看| 麻豆一区二区99久久久久| 国产成人在线影院 | 开心九九激情九九欧美日韩精美视频电影 | 99久久久久免费精品国产| 91麻豆精品在线观看| 欧美成人性福生活免费看| 亚洲视频综合在线| 国产成人免费在线观看不卡| 欧美色图免费看| 综合中文字幕亚洲| 激情深爱一区二区| 日韩欧美中文字幕精品| 夜夜嗨av一区二区三区中文字幕 | 欧美网站一区二区| 最好看的中文字幕久久| 国模套图日韩精品一区二区| 精品视频1区2区3区| 成人欧美一区二区三区在线播放| 日本不卡视频一二三区| 欧美三级日韩三级国产三级| 亚洲欧美电影院| 9色porny自拍视频一区二区| 国产精品日产欧美久久久久| 国产成人免费视频精品含羞草妖精| 欧美r级电影在线观看| 六月丁香婷婷久久| 日韩一级黄色片| 美女视频第一区二区三区免费观看网站| 色综合天天综合网国产成人综合天 | 美女一区二区视频| 欧美一级久久久久久久大片| 秋霞午夜av一区二区三区| 日韩一区二区三区高清免费看看| 亚洲r级在线视频| 91.xcao| 国产一区二区三区在线观看免费视频 | 久久97超碰色| 国产欧美日韩精品一区| av一区二区三区四区| 亚洲人成小说网站色在线 | 国产成人综合在线| 椎名由奈av一区二区三区| 欧美三级一区二区| 久久99精品国产91久久来源| 国产婷婷色一区二区三区四区| 丁香婷婷综合五月| 亚洲午夜av在线| 久久亚洲精精品中文字幕早川悠里| 国产91精品久久久久久久网曝门| 一区二区三区色| 久久女同精品一区二区| 欧美性一级生活| 国产一区二区免费视频| 亚洲综合在线电影| 精品成人一区二区| 91免费观看视频| 激情文学综合插| 五月婷婷激情综合网| 国产精品不卡在线| 欧美一区在线视频| 91偷拍与自偷拍精品| 亚洲欧洲日产国码二区| 免费成人小视频| 26uuu色噜噜精品一区| 日本精品视频一区二区三区| 婷婷久久综合九色综合绿巨人 | 性做久久久久久免费观看| 欧美成人精品3d动漫h| 97精品视频在线观看自产线路二| 免费高清不卡av| 亚洲一二三四久久| 亚洲欧洲国产日本综合| 久久久久88色偷偷免费| 91.com在线观看| 91在线一区二区三区| 国产精品1区2区3区在线观看| 亚洲va欧美va人人爽午夜| 亚洲欧美日韩一区二区| 国产欧美一二三区| 久久综合视频网| 日韩写真欧美这视频| 欧美肥妇free| 8x8x8国产精品| 欧美日本韩国一区| 欧美区在线观看| 欧美丰满少妇xxxxx高潮对白| 欧美日韩亚洲高清一区二区| 欧美日韩精品一区二区天天拍小说| 色老汉一区二区三区| 欧美色图天堂网| 欧美巨大另类极品videosbest| 欧美中文一区二区三区| 欧美视频一区二区在线观看| 欧美在线999| 欧美一区二区视频在线观看| 日韩视频在线一区二区| 日韩一级二级三级精品视频| 日韩免费成人网| 国产欧美视频在线观看| 亚洲日本乱码在线观看| 午夜国产精品影院在线观看| 奇米影视7777精品一区二区| 韩国欧美一区二区| 成人免费看的视频| 色婷婷国产精品| 日韩亚洲国产中文字幕欧美| 久久久激情视频| 中文字幕一区在线| 日本vs亚洲vs韩国一区三区二区| 免费成人在线视频观看| 成人午夜免费视频| 欧美日韩一区二区三区四区五区 | 日日骚欧美日韩| 国产成人午夜精品影院观看视频| 99精品国产视频|