久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

每日快訊
2025
08/21
17:57
分享
評(píng)論

在大語(yǔ)言模型的競(jìng)爭(zhēng)中,數(shù)學(xué)與代碼推理能力已經(jīng)成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓(xùn)練,到 DeepSeek 提出 GRPO 算法,我們見(jiàn)證了強(qiáng)化學(xué)習(xí)在推理模型領(lǐng)域的巨大潛力。然而,想要復(fù)現(xiàn)這些頂尖成果,并不只是“多喂點(diǎn)數(shù)據(jù)、跑幾輪訓(xùn)練”這么簡(jiǎn)單。現(xiàn)實(shí)是,很多中小規(guī)模的開(kāi)源推理模型,在 AIME 這樣的高難數(shù)學(xué)競(jìng)賽題、或 LiveCodeBench 這樣的復(fù)雜代碼評(píng)測(cè)中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語(yǔ)言大模型團(tuán)隊(duì)推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數(shù)學(xué)與代碼的多個(gè)權(quán)威基準(zhǔn)測(cè)試中達(dá)到同規(guī)模模型的 SOTA 水平,并完整公開(kāi)了訓(xùn)練細(xì)節(jié)與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準(zhǔn)測(cè)試中,不僅全面超越同規(guī)模的強(qiáng)力開(kāi)源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績(jī),直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術(shù)創(chuàng)新是Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓(xùn)練穩(wěn)定性的同時(shí),大幅提升探索能力的強(qiáng)化學(xué)習(xí)優(yōu)化方法。

傳統(tǒng)clip的隱性代價(jià)

在PPO和GRPO等常用的策略?xún)?yōu)化方法中,clip是控制訓(xùn)練穩(wěn)定性的重要手段,它通過(guò)限制策略更新幅度,避免模型一步走得太遠(yuǎn)而導(dǎo)致崩潰。Klear團(tuán)隊(duì)在實(shí)踐中發(fā)現(xiàn),clip 機(jī)制在保護(hù)穩(wěn)定性的同時(shí),也切斷了模型獲取最有價(jià)值學(xué)習(xí)信號(hào)的通道,模型變得保守,不敢嘗試新路徑,遇到錯(cuò)誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問(wèn)題,Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對(duì)其進(jìn)行溫和回傳。通過(guò) GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。

在與現(xiàn)有方法的對(duì)比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數(shù)學(xué)和代碼任務(wù)上都表現(xiàn)出優(yōu)勢(shì)。

數(shù)學(xué)強(qiáng)化學(xué)習(xí)訓(xùn)練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對(duì)比。

實(shí)驗(yàn)洞察

除了提出GPPO算法外,Klear團(tuán)隊(duì)在論文中對(duì)訓(xùn)練流程的多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了深入實(shí)驗(yàn)與分析,揭示了長(zhǎng)思維鏈推理模型成功背后的幾個(gè)核心要素,為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線(xiàn):

·SFT階段:質(zhì)量?jī)?yōu)先,數(shù)據(jù)可靠性比數(shù)量更重要

實(shí)驗(yàn)表明,與數(shù)據(jù)量大但質(zhì)量參差的數(shù)據(jù)源相比,來(lái)自少數(shù)高質(zhì)量數(shù)據(jù)源的樣本更具訓(xùn)練效率和效果優(yōu)勢(shì)。

高質(zhì)量數(shù)學(xué)數(shù)據(jù)Top-K子集組合對(duì)監(jiān)督微調(diào)(SFT)性能的影響。

·SFT階段:高難樣本容錯(cuò)反而能促進(jìn)學(xué)習(xí)

對(duì)于簡(jiǎn)單任務(wù),錯(cuò)誤樣本的引入會(huì)明顯影響性能,但對(duì)于高難度任務(wù),保留部分帶瑕疵的推理路徑,反而能夠提升模型表現(xiàn)。

通過(guò)三組實(shí)驗(yàn)分析了數(shù)據(jù)正確性對(duì)模型性能的影響,分別在簡(jiǎn)單(Easy)、困難(Hard)和整體(Overall)任務(wù)集上對(duì)比了純正確數(shù)據(jù)(Only True)與含錯(cuò)誤數(shù)據(jù)的混合數(shù)據(jù)(Mixed)的表現(xiàn)差異。表格中加粗?jǐn)?shù)值標(biāo)識(shí)了各組內(nèi)的最優(yōu)性能結(jié)果。

·RL階段:軟獎(jiǎng)勵(lì)優(yōu)于硬獎(jiǎng)勵(lì)

在代碼任務(wù)的強(qiáng)化學(xué)習(xí)階段,使用軟獎(jiǎng)勵(lì)(根據(jù)通過(guò)測(cè)試用例的通過(guò)率)比硬獎(jiǎng)勵(lì)(完全通過(guò)得分,否則為零)更有效

代碼強(qiáng)化學(xué)習(xí)中軟獎(jiǎng)勵(lì)與硬獎(jiǎng)勵(lì)策略的對(duì)比。在軟獎(jiǎng)勵(lì)設(shè)置中,獎(jiǎng)勵(lì)值等于測(cè)試用例通過(guò)率;而在硬獎(jiǎng)勵(lì)設(shè)置中,僅當(dāng)所有測(cè)試用例均通過(guò)時(shí)給予正向獎(jiǎng)勵(lì),否則給予負(fù)向獎(jiǎng)勵(lì)。

·RL階段:代碼數(shù)據(jù)測(cè)試用例過(guò)濾

在代碼RL數(shù)據(jù)準(zhǔn)備階段,Klear團(tuán)隊(duì)調(diào)用DeepSeek-R1-0120為每個(gè)prompt生成了16條回復(fù),只有pass@16大于0.5的數(shù)據(jù)會(huì)被保留

在LiveCodeBench V5基準(zhǔn)(avg@4指標(biāo))上,使用過(guò)濾與未過(guò)濾數(shù)據(jù)的代碼強(qiáng)化學(xué)習(xí)性能對(duì)比。Filter表示使用過(guò)濾數(shù)據(jù)的強(qiáng)化學(xué)習(xí)結(jié)果,而w/o Filter代表使用原始未過(guò)濾數(shù)據(jù)集的結(jié)果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開(kāi)源權(quán)重,更為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線(xiàn)。通過(guò) GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。這對(duì)于未來(lái)的數(shù)學(xué)、代碼,甚至其他RLVR任務(wù),都有著重要的參考價(jià)值。

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
理想汽車(chē)
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3
久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区
国产亚洲精品福利| 91色综合久久久久婷婷| 五月开心婷婷久久| 国产久卡久卡久卡久卡视频精品| 久久成人av少妇免费| 激情欧美一区二区三区在线观看| 国产精品一线二线三线精华| 日本乱码高清不卡字幕| 777色狠狠一区二区三区| 亚洲精品视频自拍| 婷婷国产在线综合| 国产日韩高清在线| 精品卡一卡二卡三卡四在线| 欧美日韩一区二区三区不卡| 成人动漫一区二区在线| 国模一区二区三区白浆| 蜜臀av性久久久久av蜜臀妖精| 亚洲最大的成人av| 亚洲免费色视频| 国产精品久线观看视频| 国产精品午夜在线观看| 久久久久久亚洲综合影院红桃| 欧美变态口味重另类| 欧美一级淫片007| 4438x成人网最大色成网站| 在线免费亚洲电影| 在线看国产日韩| 色婷婷一区二区三区四区| 91视频观看免费| 91麻豆.com| 色综合色综合色综合色综合色综合| 成人国产精品免费观看动漫| av电影天堂一区二区在线观看| 成人av先锋影音| 91网站最新地址| 91麻豆swag| 欧美婷婷六月丁香综合色| 欧美日韩国产一区| 6080日韩午夜伦伦午夜伦| 91精品午夜视频| 精品国产一区二区三区久久久蜜月| 日韩欧美国产系列| 精品国产乱码久久久久久久久| 精品日韩一区二区三区| 久久久久久久性| 国产精品情趣视频| 亚洲精品免费电影| 丝袜国产日韩另类美女| 久久超碰97人人做人人爱| 国产成人精品免费| 97se亚洲国产综合自在线不卡| 色婷婷久久99综合精品jk白丝| 欧美性大战久久久| 欧美一区二区在线不卡| 精品久久一区二区三区| 国产精品青草久久| 悠悠色在线精品| 人人狠狠综合久久亚洲| 国产一区二区三区高清播放| 成人高清视频免费观看| 欧美色爱综合网| 欧美精品一区二| 日韩一区在线播放| 亚洲成人综合在线| 久久草av在线| 91女神在线视频| 欧美一级片在线观看| 国产精品视频在线看| 亚洲综合成人在线视频| 极品美女销魂一区二区三区| av不卡一区二区三区| 7878成人国产在线观看| 国产精品天天看| 日韩精品亚洲专区| 国产一区在线观看麻豆| 色美美综合视频| 2020国产精品| 一区二区三区精品视频在线| 激情久久五月天| 欧美曰成人黄网| 久久久久99精品一区| 亚洲国产精品视频| 国产成人精品综合在线观看| 在线观看区一区二| 久久噜噜亚洲综合| 亚洲一二三四区不卡| 国产大陆a不卡| 欧美日韩极品在线观看一区| 中文字幕二三区不卡| 日韩在线一区二区三区| 不卡的电视剧免费网站有什么| 在线成人av网站| 最新中文字幕一区二区三区| 久久精品免费看| 欧美三级一区二区| 中日韩av电影| 精品一区二区三区蜜桃| 欧美日韩一区二区在线观看 | 国产乱国产乱300精品| 在线亚洲精品福利网址导航| 国产精品五月天| 久久成人精品无人区| 欧美伦理电影网| 1024成人网色www| 国产精品白丝jk黑袜喷水| 91精品国产高清一区二区三区 | 日韩激情视频网站| 91天堂素人约啪| 国产欧美一区二区精品性色| 日本va欧美va欧美va精品| 欧美无砖砖区免费| 亚洲精品成人精品456| 成人午夜视频在线观看| 欧美精品一区二区三区一线天视频| 午夜精品久久久久久| 日本福利一区二区| 日韩毛片视频在线看| 成人精品小蝌蚪| 国产网红主播福利一区二区| 久久精品国产澳门| 欧美一区二区视频在线观看2020| 亚洲午夜影视影院在线观看| 一本高清dvd不卡在线观看| 国产精品二区一区二区aⅴ污介绍| 久久精品国内一区二区三区| 欧美一区二区三区啪啪| 日韩精品91亚洲二区在线观看| 欧美日韩精品电影| 亚洲精品一区二区精华| 麻豆精品精品国产自在97香蕉| 91精品国产色综合久久不卡蜜臀| 日韩精品三区四区| 91精品国产综合久久福利 | 国产精品久久午夜| 成人ar影院免费观看视频| 国产精品久久久久久久岛一牛影视| 粉嫩一区二区三区性色av| 国产亚洲美州欧州综合国| 国产一区二区三区四区五区入口| 2023国产精华国产精品| 国产一区二区三区免费看| 欧美精品一区二区三区高清aⅴ| 国内成人免费视频| 国产精品网曝门| 一本在线高清不卡dvd| 亚洲综合一区二区三区| 欧美日韩在线播放| 免费成人在线观看| 26uuu精品一区二区在线观看| 国产不卡视频在线播放| 国产精品久久久久aaaa樱花| 色婷婷精品大视频在线蜜桃视频| 亚洲一区免费视频| 日韩视频在线一区二区| 国产自产v一区二区三区c| 国产精品麻豆99久久久久久| 一本久久a久久精品亚洲| 午夜精品久久久久影视| 欧美大黄免费观看| 国产成人av电影在线播放| 亚洲欧美在线aaa| 精品视频色一区| 久久99精品国产麻豆婷婷| 国产女主播在线一区二区| 色综合久久九月婷婷色综合| 天天综合色天天综合| 久久蜜桃一区二区| 色噜噜久久综合| 久久精品国产免费| 最新中文字幕一区二区三区| 欧美日韩国产经典色站一区二区三区| 天堂资源在线中文精品| 欧美v亚洲v综合ⅴ国产v| 99在线精品一区二区三区| 视频一区欧美日韩| 欧美极品美女视频| 欧美日韩一区在线观看| 国内精品在线播放| 亚洲影院在线观看| 久久久久久久精| 欧美三级日韩在线| 国产成人精品亚洲777人妖| 亚洲国产wwwccc36天堂| 久久人人爽人人爽| 欧美视频在线一区| 免费人成网站在线观看欧美高清| 中文字幕精品在线不卡| 欧美日韩国产影片| 成人午夜视频在线| 日韩精品电影一区亚洲| 亚洲欧洲日韩一区二区三区| 日韩视频永久免费| 91电影在线观看| 国产成人免费视频网站| 欧美aaa在线| 亚洲视频每日更新| 久久久精品欧美丰满| 91麻豆精品国产自产在线| 91免费看视频| 粉嫩av一区二区三区在线播放|