久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区

DeepMind發(fā)布新獎勵機制:讓智能體不再“碰瓷”

人工智能
2019
03/18
14:49
新智元
分享
評論

近日,DeepMind設(shè)計了一個新的智能體獎勵機制,避免了不必要的副作用(side effect),對優(yōu)化智能體所在環(huán)境有著重要的意義。

我們先來考慮一個場景:

在強化學(xué)習(xí)過程中,有一個智能體的任務(wù)是把一個盒子從A點搬運到B點,若是它能在較短時間內(nèi)完成這個任務(wù),那么它就會得到一定獎勵。

但在到達B點的最路徑上有一個花瓶,智能體是沒有任何動機繞著花瓶走的,因為獎勵機制沒有說明任何有關(guān)這個花瓶的事情。

由于智能體并不需要打破花瓶才能到達B點,所以在這個場景中,“打破花瓶”就是一個副作用,即破壞智能體所在的環(huán)境,這對于實現(xiàn)其目標(biāo)是沒有必要的。

副作用問題是設(shè)計規(guī)范問題中的一個例子:設(shè)計規(guī)范(只獎勵到達B點的智能體)與理想規(guī)范(指定設(shè)計者對環(huán)境中所有事物的偏好,包括花瓶)不同。

理想的規(guī)范可能難以表達,特別是在有許多可能的副作用的復(fù)雜環(huán)境中。

解決這個問題的一個方法是讓智能體學(xué)會避開這種副作用(通過人類反饋),例如可以通過獎勵建模。這樣做的一個好處是智能體不需要知道輔佐用的含義是什么,但同時也很難判斷智能體是何時成功學(xué)會的避開這種副作用的。

另一個方法是定義一個適用于不同環(huán)境的副作用的一般概念。這可以與human-in-the-loop 方法相結(jié)合(如獎勵建模),并將提高我們對副作用問題的理解,這有助于我們更廣泛地理解智能體激勵。

如果我們能夠度量智能體對它所在環(huán)境的影響程度,我們就可以定義一個影響懲罰(impact penalty),它可以與任何特定于任務(wù)的獎勵函數(shù)相結(jié)合(例如,一個“盡可能快地到達B點”的獎勵)。

為了區(qū)分預(yù)期效果和副作用,我們可以在獎勵和懲罰之間進行權(quán)衡。這就可以讓智能體采取高影響力的行動,從而對它獎勵產(chǎn)生巨大影響,例如:打破雞蛋,以便做煎蛋卷。

影響懲罰包括兩個部分:

一個用作參考點或比較點的環(huán)境狀態(tài)(稱為基線);用于測量由于智能體的操作而導(dǎo)致當(dāng)前狀態(tài)與基線狀態(tài)之間的距離的一種方法(稱為偏差度量)。

例如,對于常用的可逆性準(zhǔn)則(reversibility criterion),基線是環(huán)境的起始狀態(tài),偏差度量是起始狀態(tài)基線的不可達性(unreachability)。這些組件可以單獨選擇。

選擇一個基線

在選擇基線的時候,很容易給智能體引入不良的激勵。

起始狀態(tài)基線似乎是一個自然的選擇。但是,與起始狀態(tài)的差異可能不是由智能體引起的,因此對智能體進行懲罰會使其有動機干擾其環(huán)境或其他智能體。 為了測試這種干擾行為,我們在AI Safety Gridworlds框架中引入了Conveyor Belt Sushi環(huán)境。

Conveyor Belt Sushi環(huán)境是一個壽司店。它包含一個傳送帶,在每個智能體操作之后,傳送帶向右移動一個方格。傳送帶上有一個壽司盤,當(dāng)它到達傳送帶的末端時,饑餓的人會吃掉它。其中,干擾行為是智能體在行進過程當(dāng)中,會把壽司從傳送帶上撞掉。

智能體的任務(wù)就是在有或者沒有干擾的情況下,從上方區(qū)域抵達下方五角星的目標(biāo)區(qū)域。

為了避免這種失敗模式,基線需要隔離智能體負責(zé)的內(nèi)容。

一種方法是比較一個反事實狀態(tài),如果智能體從初始狀態(tài)(不作為基線)開始就沒有做任何事情,那么環(huán)境就會處于上面GIF中右側(cè)的狀態(tài),并且在Conveyor Belt Sushi環(huán)境中,壽司不會成為基線的一部分,因為我們默認“人會吃掉它”。但這就會引入一個不良的行為,即“抵消(offsetting)”。

我們在傳送帶環(huán)境的另一種變體——傳送帶花瓶上演示了這種行為。在這個變體中,傳送帶上的物體是一個花瓶,當(dāng)它到達傳送帶的末端時就會打碎。

智能體的任務(wù)是拯救花瓶:從傳送帶上取下花瓶就會得到獎勵。

"抵消行為"是在收到獎勵后把花瓶放回傳送帶上。發(fā)生這種情況是因為花瓶在不作為基線的區(qū)域停止傳送,所以一旦智能體將花瓶從傳送帶上取下,它將繼續(xù)因為與基線的差異而受到懲罰。因此,它有一個動機,通過打破花瓶后收集獎勵并回到基線。

為了避免這種失敗模式,可以將不活動(inaction)的基線修改為先前狀態(tài)的分支,而不是起始狀態(tài)。這是stepwise inaction基線:如果智能體沒有采取任何行動,只是采取了最后的行動,那么這就是環(huán)境的反事實狀態(tài)。

選擇偏差度量

一個常用的偏差度量是不可達性(unreachability,UR)度量:從當(dāng)前狀態(tài)到達基線的難度。不可達性的discounted變量考慮到達狀態(tài)所需的時間,而不可達性的undiscounted變量只考慮是否可以到達狀態(tài)。

不可達性度量的一個問題是,如果智能體采取不可逆的操作(因為基線變得不可達),它就會“最大化”。

除了不可逆轉(zhuǎn)行為的嚴(yán)重程度之外,該智能體還會受到最大的懲罰,例如,該智能體是否打碎了1個花瓶或100個花瓶。這可能導(dǎo)致不安全的行為,正如AI Safety Gridworlds套件中的Box環(huán)境所示。

此處,智能體需要盡快抵達目標(biāo)位置,但是路徑中有一個盒子,它可以被推動,但是不能被拉。通往目標(biāo)位置的最短路徑需將盒子推到一個角落,這是一個不可恢復(fù)的位置。我們所需的行為是讓智能體選擇一條更長的路徑,將框推到右邊。

需要注意的是,GIF中兩條通往目標(biāo)位置的路徑,都包含一個不可逆的動作。副作用懲罰必須區(qū)分這兩條路徑,對較短路徑的懲罰更高——否則智能體沒有動機避免將盒子放在角落。

為了避免這種失敗模式,我們引入了一個相對可達性(RR)度量。對于每個狀態(tài),我們可以與基線狀態(tài)做個比較,然后進行相應(yīng)的懲罰。智能體向右推動盒子會讓某些狀態(tài)不可達,但是智能體向下推動盒子所接受的懲罰會更高。

引入另一種偏差度量也可以避免這種失敗模式??色@得效用(AU)衡量方法考慮一組獎勵函數(shù)(通常隨機選擇)。對于每個獎勵函數(shù),它比較智能體從當(dāng)前狀態(tài)開始和從基線開始可以獲得多少獎勵,并根據(jù)兩者之間的差異懲罰智能體。相對可達性可以被視為該度量的特殊情況,如果達到某個狀態(tài)則獎勵1,否則給出0。

默認情況下,RR度量因可達性降低而懲罰智能體,而AU度量因可達效用的差異而懲罰智能體。

設(shè)計選擇的影響

我們比較了三種基線(起始狀態(tài)、inaction和stepwise inaction)與三種偏差度量(UR、RR和AU)的所有組合。

我們正在尋找一種在所有環(huán)境下都表現(xiàn)良好的設(shè)計選擇組合:有效地懲罰盒子環(huán)境中的副作用,而不引入壽司和花瓶環(huán)境中的不良激勵。

在壽司環(huán)境中,帶有起始狀態(tài)基線的RR和AU懲罰會產(chǎn)生干擾行為。由于起始狀態(tài)永遠不可達,所以UR值總是在其最大值處。因此,它等同于智能體的移動懲罰,并且不會激勵干擾。 與其他基線的處罰可避免對此環(huán)境的干擾。

在花瓶環(huán)境中,inaction基線的discounted懲罰產(chǎn)生抵消行為。因為把花瓶從傳送帶上取下來是可逆的,所以undiscounted措施不會對它造成懲罰,所以沒有什么可以抵消的。初始狀態(tài)或stepwise inaction基準(zhǔn)的懲罰不會激勵補償。

在盒子環(huán)境中,因為UR度量對大小不敏感,所以它對所有基線都產(chǎn)生副作用。RR和AU的措施激勵正確的行為。

我們注意到干擾和抵消行為是由基線的特定選擇引起的,盡管這些激勵可以通過偏差度量的選擇得到緩解。副作用行為(將方框放在角落)是由偏差度量的選擇引起的,不能通過基線的選擇來減輕。這樣,偏差度量就像基線屬性的過濾器。

總體而言,基線的最佳選擇是stepwise inaction,偏差度量的最佳選擇是RR或AU。

然而,這可能不是這些設(shè)計選擇的最終結(jié)論,將來可以開發(fā)更好的選項或更好的實現(xiàn)。例如,我們當(dāng)前對inaction的實現(xiàn)相當(dāng)于關(guān)閉智能體。如果我們想象智能體駕駛一輛汽車在一條蜿蜒的道路上行駛,那么在任何時候,關(guān)閉智能體的結(jié)果都是撞車。

因此,stepwise inaction的基準(zhǔn)不會懲罰在車?yán)餅⒖Х鹊男袨檎?,因為它將結(jié)果與撞車進行了比較。可以通過更明智地實施無為來解決這個問題,比如遵循這條道路的故障保險政策。然而,這種故障安全很難以一種與環(huán)境無關(guān)的通用方式定義。

我們還研究了懲罰差異與降低可達性或可實現(xiàn)效用的效果。這不會影響這些環(huán)境的結(jié)果(除了花瓶環(huán)境的inactionn基線的懲罰)。

在這里,把花瓶從傳送帶上拿開增加了可達性和可實現(xiàn)的效用,這是通過差異而不是減少來捕獲的。因此,undiscounted RR與inaction基線的差異懲罰變體會在此環(huán)境中產(chǎn)生抵消,而減少懲罰變量則不會。由于stepwise inaction無論如何都是更好的基線,因此這種影響并不顯著。

在設(shè)計過程中,選擇“差異”還是“減少”也會影響智能體的可中斷性。

【來源:新智元】

THE END
廣告、內(nèi)容合作請點擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

AI機器人,正在發(fā)展出“機器人撥打騷擾電話+逃避監(jiān)管的特殊方法+惡意收集的隱私大數(shù)據(jù)”這樣一條龍的產(chǎn)業(yè),情況令人觸目驚心。
業(yè)界
3月14日消息,深度學(xué)習(xí)是個涉及高度迭代的過程。在這個過程中,數(shù)據(jù)科學(xué)家需要建立模型,并在GPU驅(qū)動的系統(tǒng)上進行測試,直到得到可以投入使用的產(chǎn)品。
業(yè)界
在過去一年中,科技公司侵犯消費者個人隱私成為輿論關(guān)注焦點,而老牌科技巨頭IBM似乎和這樣的丑聞并無關(guān)聯(lián)。
業(yè)界
3月11日消息,近幾年,隨著人們出游觀念的變化,旅游需求與要求層次的提升,定制游逐漸從小眾市場走到大眾的眼前。
業(yè)界

相關(guān)推薦

1
3
久久精品国产亚洲5555_亚洲人成亚洲人成在线观看图片 _亚洲.国产.中文慕字在线_久久精品免费电影_奇米影视7777精品一区二区_91精品免费观看_www.亚洲人_欧美一区二区三区免费_91精品国产91久久久久_eeuss影院一区二区三区
久久综合九色综合久久久精品综合 | 欧美一区二区私人影院日本| 欧美剧在线免费观看网站 | 极品美女销魂一区二区三区 | 久久精品国产在热久久| 国产精一区二区三区| 久久久一区二区| 国产成人h网站| 亚洲桃色在线一区| 欧美日韩在线不卡| 国产毛片精品一区| 国产精品你懂的在线欣赏| 成人av免费在线观看| 亚洲自拍偷拍综合| 久久久午夜电影| 日本精品一区二区三区高清| 亚洲日本电影在线| 精品人在线二区三区| 色婷婷激情综合| 豆国产96在线|亚洲| 亚洲国产精品影院| 久久久久久麻豆| 69堂精品视频| 色综合天天综合网天天狠天天 | 欧美日韩精品系列| 91麻豆国产香蕉久久精品| 日日夜夜免费精品| 亚洲一区二区三区四区不卡| 国产日产精品一区| 国产精品灌醉下药二区| 国产精品网站一区| 中文字幕免费观看一区| 日韩精品在线一区二区| 777a∨成人精品桃花网| 欧美性视频一区二区三区| 91最新地址在线播放| 成人av电影免费观看| 成人性视频网站| 一本色道久久综合亚洲aⅴ蜜桃| 国产成人a级片| 91色婷婷久久久久合中文| 欧美最猛黑人xxxxx猛交| av资源网一区| av在线免费不卡| 欧美日韩一级二级| 精品国产乱码久久| 亚洲国产中文字幕| 韩国欧美一区二区| 欧美另类videos死尸| 精品99一区二区三区| 精品免费国产一区二区三区四区| 日韩女优毛片在线| 亚洲综合免费观看高清在线观看| 国产精品小仙女| 日韩欧美色综合| 精品一区二区三区蜜桃| 欧美精品在线一区二区| 亚洲国产精品黑人久久久| 亚洲天堂久久久久久久| 暴力调教一区二区三区| 国产亚洲精品免费| 国产一本一道久久香蕉| 日韩你懂的在线播放| 午夜精品免费在线观看| 欧美日韩一区二区在线观看视频| 欧美激情一区在线| 国产mv日韩mv欧美| 综合久久久久综合| 欧美在线视频全部完| 一区二区三区精品视频| 欧美精品 国产精品| 免费看欧美女人艹b| 欧美精品一区二区高清在线观看| 七七婷婷婷婷精品国产| 国产人妖乱国产精品人妖| 99精品视频免费在线观看| 国产精品第13页| 日韩精品一区二区三区视频在线观看 | 亚洲女性喷水在线观看一区| 中文字幕在线不卡一区二区三区| 国产精品国产三级国产有无不卡| 亚洲精品视频在线观看免费| 一级做a爱片久久| 国产激情视频一区二区在线观看 | 亚洲国产精品久久久久秋霞影院| 一区二区三区日本| 久久se精品一区二区| 色先锋资源久久综合| 91精品国产综合久久精品性色| 久久这里只有精品视频网| 亚洲香蕉伊在人在线观| 国产一区二区成人久久免费影院| 成人app网站| 国产欧美日本一区二区三区| 亚洲欧洲99久久| 欧美日韩视频在线第一区| 欧美在线|欧美| 欧美亚洲动漫制服丝袜| 欧美日韩成人高清| 欧美群妇大交群的观看方式| 欧美亚洲动漫精品| 精品国精品自拍自在线| 精品成人a区在线观看| 亚洲国产激情av| 婷婷中文字幕综合| 国产福利不卡视频| 欧美在线免费视屏| 美女视频黄免费的久久| 日本三级韩国三级欧美三级| 视频一区欧美精品| av中文字幕在线不卡| 国产99久久久国产精品潘金 | 亚洲一区二区精品视频| 91国偷自产一区二区三区成为亚洲经典 | 亚洲一线二线三线久久久| 日韩高清不卡一区二区三区| 成人激情文学综合网| 国产日本欧美一区二区| 九九精品视频在线看| 精品成人在线观看| 国产麻豆9l精品三级站| 精品国产自在久精品国产| 蜜臀av性久久久久蜜臀aⅴ流畅| 欧美日韩一级黄| 日本欧洲一区二区| 日韩欧美中文字幕一区| 国内精品伊人久久久久影院对白| 欧美一卡在线观看| 国产成人在线影院| 中文字幕在线观看一区二区| 99re视频精品| 日韩中文字幕一区二区三区| 日韩欧美精品在线| 不卡视频一二三| 亚洲成人一区二区在线观看| 欧美白人最猛性xxxxx69交| 99久久国产免费看| 国产高清精品网站| 日韩一级欧美一级| 懂色av中文一区二区三区| 国产精品一区在线观看你懂的| 久久人人97超碰com| 99视频热这里只有精品免费| 一个色在线综合| 日韩精品专区在线| 91在线porny国产在线看| 青草国产精品久久久久久| 日韩女优视频免费观看| 色94色欧美sute亚洲13| 国精产品一区一区三区mba桃花 | 成人黄色小视频| 亚洲午夜精品在线| 国产欧美一区二区在线观看| 欧美综合久久久| 国产成人精品免费一区二区| 一区二区三区美女视频| 国产丝袜欧美中文另类| 欧美精品在线一区二区三区| 99久久免费精品| 国产精品99久久久| 韩国女主播一区| 日韩电影在线看| 亚洲v日本v欧美v久久精品| 中文在线一区二区| 26uuu成人网一区二区三区| 欧美日韩国产a| 欧美日韩色一区| 欧美日韩免费高清一区色橹橹| av成人免费在线| 成人伦理片在线| 91丨九色丨蝌蚪丨老版| gogogo免费视频观看亚洲一| 国产激情视频一区二区在线观看| 久久精品国产77777蜜臀| 日韩精品一二三区| 青青草原综合久久大伊人精品| 亚洲va欧美va天堂v国产综合| 亚洲国产一区视频| 天天综合天天做天天综合| 亚洲mv大片欧洲mv大片精品| 亚洲电影激情视频网站| 偷拍亚洲欧洲综合| 麻豆精品一二三| 国产黄色成人av| 9l国产精品久久久久麻豆| 91美女在线看| 欧美一区午夜视频在线观看| 日韩一级免费观看| 国产精品电影一区二区三区| 亚洲欧美激情在线| 日日夜夜免费精品| 国产馆精品极品| 日本二三区不卡| 精品理论电影在线观看| 亚洲天堂成人在线观看| 奇米影视一区二区三区| 成人美女在线视频| 日韩一区国产二区欧美三区| 国产日韩欧美激情| 午夜久久久影院|