近日,快手首次提出生成式強化學習出價技術,并將其應用于大規模廣告系統中。該項技術顯著提升了廣告競價的智能化水平,實現了出價策略從傳統“依賴單步狀態決策”到新一代“序列決策”的關鍵跨越,在為廣告主帶來更高投放回報的同時,也提升了平臺整體收益,真正實現了雙贏。2025年至今,該技術已成功推動快手廣告收入提升3%,成效顯著。
廣告出價:實時競價中的“智能大腦”
在實時競價(RTB)廣告系統中,出價模塊作為連接廣告主與流量的核心樞紐,需要在多重約束條件下實現廣告投放效果的最優化。
這一過程面臨三大挑戰。首先是既要控制支出,又要追求效益。廣告主不僅需要將單日花費嚴格控制在預算范圍內,還應力求降低每次轉化的成本,實現成本效益的雙重優化。
其次是,未來環境的不確定性。系統難以預知即將到來的流量狀況與競爭對手行為,因此必須依賴實時花費與成本等數據,動態調整出價策略以應對波動市場。
最后是決策之間的連鎖影響。每一次出價不僅直接影響廣告的展示與消耗,還會改變賬戶狀態(如剩余預算),進而干擾后續出價決策,形成一個連續且復雜的序列決策問題。
三代技術革新,快手提出新一代生成式強化學習出價技術
快手出價技術已歷經三代演進:從PID控制——基于當前狀態與目標的偏差進行調節,響應直接但適應性有限,難以應對復雜多變的競價環境;到第二代MPC預測模型——能夠預測短期未來并優化動作,但預測范圍有限,易陷局部最優;再到第三代強化學習——通過歷史數據學習不同狀態下的最優出價策略,最大化長期收益,兼顧效果與安全性。
近年來,盡管強化學習在自動出價中表現優異,但其決策仍依賴單步狀態信息,對序列歷史利用不足。而生成式模型擅長對序列數據進行建模和生成,卻不擅長直接優化目標收益。
面對這一挑戰,快手創新融合兩類技術,提出生成式強化學習出價技術——在繼承生成模型序列建模能力的基礎上,引入強化學習的目標導向優化機制,實現出價策略在長序列決策中的新突破。
兩大核心算法實現廣告出價“多維思考”,助推智能決策升級
在將生成模型應用于強化出價策略的過程中,主要面臨兩大挑戰:一是對高質量數據集的依賴較強,限制了泛化能力;二是生成模型難以直接優化序列整體收益,導致出價策略與廣告主全局目標存在偏差。
針對這些挑戰,快手提出了GAVE和CBD兩大創新算法。GAVE算法融合了Score-based RTG機制與價值函數引導的動作探索策略,顯著提升了離線訓練中的探索能力,該成果助力團隊榮獲NeurIPS 2024自動出價競賽雙賽道冠軍。
CBD算法則聚焦于生成模型與優化目標的對齊問題,引入“Completer(擴散補全)”和“Aligner(偏好對齊)”雙模塊,通過補全未來狀態軌跡并進行校準,使出價策略更貼合廣告主真實需求,提升了系統長程規劃與決策可解釋性。
2025年至今,生成式強化學習出價技術已在快手廣告系統中全面部署,并推動平臺廣告收入提升3%。在多項關鍵客戶指標上實現突破——如在成本控制場景中,消耗提升2.0%,CPA達標率提升1.9%。
展望未來,快手將圍繞兩大方向持續演進。一是構建出價基座大模型,整合多場景數據訓練通用模型,發揮規模效應;二是發展出價推理大模型,引入大語言模型增強推理能力,提升可解釋性與復雜決策水平。
快手將繼續推動自動出價技術向更高層次的智能化邁進,為數字營銷行業注入創新動力。