神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:人類的學(xué)習(xí)方式是,先學(xué)習(xí)理解基礎(chǔ)知識(shí)和概念,然后在實(shí)踐中達(dá)到融會(huì)貫通。而機(jī)器的學(xué)習(xí)方式是強(qiáng)化學(xué)習(xí),通過(guò)獎(jiǎng)勵(lì)系統(tǒng)來(lái)識(shí)別對(duì)錯(cuò),從而在訓(xùn)練中尋找到正確的模式。但這種學(xué)習(xí)方式的弊端在于缺乏靈活性,稍微改變一下場(chǎng)景,機(jī)器就失能了,因?yàn)樗](méi)有“理解”。那么,如果先拿基礎(chǔ)知識(shí)來(lái)對(duì)模型進(jìn)行預(yù)訓(xùn)練會(huì)發(fā)生什么?實(shí)驗(yàn)證明,在這種情況下,機(jī)器會(huì)表現(xiàn)得更好。本文章來(lái)自編譯,希望對(duì)您有所啟發(fā)。
Jeffrey Fisher for Quanta Magazine
想象一下,你的鄰居打電話來(lái)請(qǐng)求幫忙:能給我們的寵物兔子喂點(diǎn)胡蘿卜片嗎?你可能會(huì)想,這很簡(jiǎn)單。你可以想象到他們廚房的樣子,即使你從未去過(guò)那里:冰箱里放著胡蘿卜,抽屜里放著各種刀具。這是抽象的知識(shí),你不知道鄰居的胡蘿卜和刀到底是什么樣子的,但你心里會(huì)有一個(gè)大致的概念。
人工智能程序無(wú)法做到這一點(diǎn)。在你看來(lái)很容易的任務(wù),對(duì)目前的算法來(lái)說(shuō)是一項(xiàng)巨大的工程。
一個(gè)經(jīng)過(guò)人工智能訓(xùn)練的機(jī)器人,可以在一個(gè)熟悉的廚房里找到一把特定的刀和胡蘿卜,但在另一個(gè)廚房里,它將缺乏成功的抽象技能。華盛頓大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的研究生維克多·鐘(Victor Zhong)說(shuō),“它們不能對(duì)新環(huán)境進(jìn)行泛化。機(jī)器之所以失敗,是因?yàn)橐獙W(xué)習(xí)的東西實(shí)在太多,要探索的空間也太大。”
問(wèn)題是,這些機(jī)器人沒(méi)有一個(gè)用來(lái)構(gòu)建的概念基礎(chǔ)。他們不知道刀或胡蘿卜到底是什么,更不知道如何打開(kāi)抽屜,選擇一個(gè)胡蘿卜并將其切成片。這種局限性在一定程度上是由于,許多高級(jí)人工智能系統(tǒng)都是通過(guò)一種名為“強(qiáng)化學(xué)習(xí)”的方法進(jìn)行訓(xùn)練的,這種方法本質(zhì)上是通過(guò)試錯(cuò)進(jìn)行自我教育。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的人工智能,可以在他們被訓(xùn)練的環(huán)境中很好地執(zhí)行自身接受過(guò)訓(xùn)練的工作。但是如果改變工作或環(huán)境,這些系統(tǒng)往往會(huì)失效。
為了克服這一限制,計(jì)算機(jī)科學(xué)家已經(jīng)開(kāi)始教機(jī)器人一些重要的概念。這就像在使用新軟件之前閱讀手冊(cè)一樣:你可以在沒(méi)有它的情況下嘗試探索,但有了它你會(huì)學(xué)得更快。普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家卡瑟·納史木汗(Karthik Narasimhan)說(shuō):“人類通過(guò)實(shí)踐和閱讀的結(jié)合來(lái)學(xué)習(xí)。我們希望機(jī)器也能做到這一點(diǎn)。”
鐘和其他人的新研究表明,以這種方式啟動(dòng)學(xué)習(xí)模型可以在模擬環(huán)境中提高學(xué)習(xí)效率。這不僅能讓算法學(xué)習(xí)得更快,還能引導(dǎo)它們掌握原本從未學(xué)過(guò)的技能。研究人員希望這些智能體成為多面手,能夠?qū)W習(xí)從國(guó)際象棋、到購(gòu)物、再到清潔的任何事情。隨著展示用例變得越來(lái)越實(shí)用,科學(xué)家們認(rèn)為這種方法甚至可能改變?nèi)祟惻c機(jī)器人互動(dòng)的方式。
“這是一個(gè)相當(dāng)大的突破,”谷歌的機(jī)器人研究科學(xué)家布萊恩·伊切特(Brian Ichter)說(shuō),“在一年半的時(shí)間里,它取得了難以想象的進(jìn)步。”
1. 稀少的獎(jiǎng)勵(lì)
乍一看,機(jī)器學(xué)習(xí)已經(jīng)取得了顯著的成功。大多數(shù)模型通常使用強(qiáng)化學(xué)習(xí),在這種學(xué)習(xí)方式中,算法通過(guò)獲得獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)。它們一開(kāi)始是完全無(wú)知的,但能通過(guò)試錯(cuò)獲得知識(shí)。強(qiáng)化學(xué)習(xí)可以讓人工智能輕松掌握簡(jiǎn)單的游戲。
以電子游戲《貪吃蛇》(Snake)為例,玩家在游戲中控制一條蛇,蛇在吃數(shù)字蘋(píng)果之后會(huì)變長(zhǎng)。你想讓蛇吃到最多的蘋(píng)果,同時(shí)呆在邊界內(nèi),避免撞到自己越來(lái)越笨重的身體。這種明確的對(duì)錯(cuò)結(jié)果會(huì)給機(jī)器帶來(lái)積極的反饋,所以足夠多的嘗試可以讓它從“菜鳥(niǎo)”變成“高手”。
但假設(shè)規(guī)則改變了,玩家需要在更大的網(wǎng)格或三維空間中操作,那么雖然人類玩家可以快速適應(yīng),但機(jī)器不能,因?yàn)橛袃蓚€(gè)關(guān)鍵的弱點(diǎn)。首先,更大的空間意味著蛇需要更長(zhǎng)的時(shí)間才能找到蘋(píng)果,當(dāng)獎(jiǎng)勵(lì)變得稀少時(shí),學(xué)習(xí)速度會(huì)呈指數(shù)級(jí)下降。其次,新的維度提供了全新的體驗(yàn),強(qiáng)化學(xué)習(xí)很難推廣到新的挑戰(zhàn)。
穿著藍(lán)色襯衫的維克多·鐘(Victor Zhong)。維克多·鐘通過(guò)先為機(jī)器灌輸基本信息,來(lái)幫助機(jī)器學(xué)習(xí)概括理解其知識(shí)。圖片來(lái)源:Matt Hagen
鐘說(shuō),我們不需要屈服于這些障礙。“如果我們想讓人工智能學(xué)會(huì)下棋,為什么需要從頭開(kāi)始訓(xùn)練一個(gè)模型呢?”這種方法效率低下。人工智能漫無(wú)目的地四處游蕩,直到它偶然發(fā)現(xiàn)一個(gè)好的情況,比如將軍。鐘說(shuō),需要仔細(xì)的人為設(shè)計(jì),讓智能體知道一個(gè)好的情況意味著什么。
在一定程度上,這是因?yàn)闄C(jī)器在理解人類語(yǔ)言和破譯圖像方面遇到了困難。對(duì)于一個(gè)機(jī)器人來(lái)說(shuō),要完成基于視覺(jué)的任務(wù),比如尋找和切胡蘿卜,它必須知道胡蘿卜是什么,物體的圖像必須是“基于”對(duì)該物體是什么的基本理解。直到最近,還沒(méi)有什么好的方法可以做到這一點(diǎn),但是語(yǔ)言和圖像處理速度和規(guī)模的迅速增長(zhǎng),使得這成為可能。
新的自然語(yǔ)言處理模型使機(jī)器能夠從本質(zhì)上學(xué)習(xí)單詞和句子背后的含義,將它們與世界上的事物聯(lián)系起來(lái),而不僅僅是像數(shù)字字典那樣存儲(chǔ)一個(gè)簡(jiǎn)單(和有限)的含義。
計(jì)算機(jī)視覺(jué)也經(jīng)歷了類似的數(shù)字爆炸。大約在 2009 年,ImageNet 作為用于計(jì)算機(jī)視覺(jué)研究的注釋圖像數(shù)據(jù)庫(kù)首次亮相。今天,它擁有超過(guò) 1400 萬(wàn)張物體和地點(diǎn)的圖像。像 OpenAI 的 DALL-E 這樣的程序,盡管沒(méi)有確切的對(duì)比可以借鑒,卻能根據(jù)命令生成新的圖像,看起來(lái)像是人工制作的。
加州理工學(xué)院(California Institute of Technology)和英偉達(dá)公司(Nvidia)的計(jì)算機(jī)科學(xué)家阿尼瑪·阿南德庫(kù)馬爾(Anima Anandkumar)表示,這表明機(jī)器現(xiàn)在只有獲得足夠的在線數(shù)據(jù),才能真正了解世界。這表明他們可以像人類一樣從概念中學(xué)習(xí),并將其用于生成新的東西。她說(shuō):“我們現(xiàn)在正處在一個(gè)偉大的時(shí)刻。因?yàn)橐坏┯辛松傻哪芰Γ覀兛梢宰龅氖虑榫透嗔恕?rdquo;
2. 游戲系統(tǒng)
像鐘這樣的研究人員認(rèn)為,機(jī)器不必再在完全不知情的情況下進(jìn)行探索了。有了復(fù)雜的語(yǔ)言模型,研究人員可以增加一個(gè)預(yù)訓(xùn)練步驟,讓程序在嘗試和錯(cuò)誤之前從在線信息中學(xué)習(xí)。
為了測(cè)試這一想法,鐘和他的同事們?cè)谖宸N不同的類似游戲的環(huán)境中,將預(yù)訓(xùn)練與傳統(tǒng)的強(qiáng)化學(xué)習(xí)進(jìn)行了比較。每個(gè)模擬環(huán)境都對(duì)機(jī)器提出了獨(dú)特的挑戰(zhàn)。其中一個(gè)要求機(jī)器操作三維廚房中的物品,另一個(gè)則要求機(jī)器通過(guò)閱讀文本,來(lái)掌握打擊怪物的精確行動(dòng)順序。但最復(fù)雜的環(huán)境是一個(gè)真實(shí)的游戲,即有 35 年歷史的 NetHack,其目標(biāo)是在一個(gè)復(fù)雜的地下城中找到一個(gè)護(hù)身符。
對(duì)于簡(jiǎn)單的設(shè)置,自動(dòng)預(yù)訓(xùn)練意味著簡(jiǎn)單地建立重要的概念:這是胡蘿卜,那是怪物。在 NetHack 中,機(jī)器通過(guò)觀看人類玩家的游戲過(guò)程,使用人類玩家上傳到互聯(lián)網(wǎng)上的游戲指南進(jìn)行訓(xùn)練。這些游戲過(guò)程甚至不需要那么好,機(jī)器只需要建立對(duì)人類行為的直覺(jué)。機(jī)器并不是要成為專家,而只需成為一名普通選手。它會(huì)通過(guò)觀察來(lái)建立直覺(jué):人類在特定場(chǎng)景下會(huì)做什么?機(jī)器將決定哪些行動(dòng)是成功的,制定自己的胡蘿卜和大棒。
“通過(guò)預(yù)訓(xùn)練,關(guān)于如何將語(yǔ)言描述與世界上正在發(fā)生的事情聯(lián)系起來(lái),我們形成了良好的先驗(yàn),”鐘說(shuō)。智能體從一開(kāi)始就能發(fā)揮得更好,并在隨后的強(qiáng)化學(xué)習(xí)中學(xué)習(xí)得更快。
結(jié)果,經(jīng)過(guò)預(yù)訓(xùn)練的智能體的表現(xiàn),確實(shí)優(yōu)于經(jīng)過(guò)傳統(tǒng)訓(xùn)練的智能體。“經(jīng)過(guò)預(yù)訓(xùn)練的機(jī)器在這五種環(huán)境中都獲得了全面的勝利,”鐘說(shuō)。較簡(jiǎn)單的環(huán)境只顯示出輕微的優(yōu)勢(shì),但在 NetHack 復(fù)雜的地下城中,機(jī)器的學(xué)習(xí)速度快了許多倍,達(dá)到了傳統(tǒng)方法無(wú)法達(dá)到的技能水平。
身穿紅裙的阿尼瑪·阿南德庫(kù)馬爾(Anima Anandkumar)。阿南德庫(kù)馬爾說(shuō):“這種學(xué)習(xí)方式與標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)相比是一個(gè)巨大的飛躍。”圖片來(lái)源:Monica Almeida for Quanta Magazine
阿南德庫(kù)馬爾的團(tuán)隊(duì)還對(duì)機(jī)器進(jìn)行預(yù)培訓(xùn),讓它們更快地學(xué)習(xí),在全球最暢銷的視頻游戲《我的世界》(Minecraft)上取得了重大進(jìn)展。《我的世界》被稱為“沙盒”游戲,這意味著它為玩家提供了一個(gè)幾乎無(wú)限的空間,讓他們?cè)谄渲谢?dòng)并創(chuàng)造新的世界。為成千上萬(wàn)的任務(wù)單獨(dú)編程獎(jiǎng)勵(lì)功能是徒勞的,學(xué)不會(huì)這個(gè)游戲,所以該團(tuán)隊(duì)的模型(“MineDojo”)通過(guò)觀看帶字幕的游戲視頻,來(lái)構(gòu)建對(duì)游戲的理解,而無(wú)需規(guī)范良好的行為。
3. 超越游戲
游戲是展示“預(yù)訓(xùn)練模型可行”的好方法,但它們?nèi)匀皇呛?jiǎn)化的世界。訓(xùn)練機(jī)器人應(yīng)對(duì)現(xiàn)實(shí)世界的難度要大得多,因?yàn)楝F(xiàn)實(shí)世界的可能性幾乎無(wú)窮無(wú)盡。“我們提出了一個(gè)問(wèn)題:有沒(méi)有介于兩者之間的東西?”納史木汗說(shuō)。所以他決定嘗試讓機(jī)器在網(wǎng)上購(gòu)物。
他的團(tuán)隊(duì)創(chuàng)建了 WebShop。“它基本上就像一個(gè)購(gòu)物管家,” 納史木汗說(shuō)。用戶可以這樣說(shuō):“給我買一雙 100 美元以下的白色耐克鞋,我希望評(píng)論說(shuō)這雙鞋對(duì)幼兒來(lái)說(shuō)非常舒適。”接下來(lái),程序就會(huì)找到并購(gòu)買這雙鞋。
就像鐘和阿南庫(kù)瑪爾的游戲一樣,WebShop 通過(guò)圖像和文本訓(xùn)練來(lái)培養(yǎng)機(jī)器的直覺(jué),只不過(guò)這次的訓(xùn)練內(nèi)容是來(lái)自亞馬遜的頁(yè)面。“隨著時(shí)間的推移,它會(huì)學(xué)會(huì)理解語(yǔ)言,并將其映射到需要在網(wǎng)站上采取的行動(dòng)中。”
乍一看,購(gòu)物管家似乎并沒(méi)有那么超前。不過(guò),雖然先進(jìn)的聊天機(jī)器人可以幫你找到心儀的運(yùn)動(dòng)鞋,但像下訂單這樣的互動(dòng)則需要完全不同的技能。盡管你床邊的 Alexa 或 Google Home 音箱可以下訂單,但它們依賴于執(zhí)行預(yù)定任務(wù)的專有軟件。WebShop 則以人類的方式瀏覽網(wǎng)頁(yè):通過(guò)閱讀、輸入和點(diǎn)擊。
納史木汗說(shuō):“這是向通用智能邁出的一步。”
卡瑟·納史木汗(Karthik Narasimhan)說(shuō):“人類通過(guò)實(shí)踐和閱讀的結(jié)合來(lái)學(xué)習(xí)。我們希望機(jī)器也能做到這一點(diǎn)。” 圖片來(lái)源:David Kelly Crow/普林斯頓大學(xué)
當(dāng)然,讓機(jī)器人與現(xiàn)實(shí)世界互動(dòng)有其自身的挑戰(zhàn)性。以瓶子為例,你可以通過(guò)它的外觀認(rèn)出它,你知道它是用來(lái)儲(chǔ)存液體的,你知道如何用手操作它。但真正的機(jī)器能把文字和圖像變成復(fù)雜的運(yùn)動(dòng)智能嗎?
卡瑟·納史木汗與普林斯頓大學(xué)的機(jī)器人專家安如達(dá)·瑪捷達(dá)(Anirudha Majumdar)合作,想找到答案。他們教機(jī)械臂操作以前從未見(jiàn)過(guò)的工具,并使用取自成功語(yǔ)言模型的描述性語(yǔ)言對(duì)其進(jìn)行預(yù)訓(xùn)練。根據(jù)去年6月發(fā)布在預(yù)印本服務(wù)器 arxiv.org 上的結(jié)果,與通過(guò)傳統(tǒng)探索學(xué)習(xí)的程序相比,該程序幾乎在所有工具和動(dòng)作上都學(xué)得更快,表現(xiàn)也更好。
工程師們?cè)诠雀璧臋C(jī)器人實(shí)驗(yàn)室建立了一個(gè)更加復(fù)雜的命令庫(kù),同樣植根于情景構(gòu)建預(yù)訓(xùn)練。“你需要考慮的可能性非常多,”谷歌機(jī)器人團(tuán)隊(duì)的研究科學(xué)家卡羅爾·豪斯曼(Karol Hausman)說(shuō),“所以我們要求語(yǔ)言模型為我們分解它。”
該團(tuán)隊(duì)使用了一個(gè)移動(dòng)助手機(jī)器人,它有一個(gè) 7 關(guān)節(jié)的手臂。研究人員使用語(yǔ)言技能對(duì)其進(jìn)行訓(xùn)練。對(duì)于任何給定的命令,比如“幫我清理溢出的飲料”,該程序會(huì)使用語(yǔ)言模型從 700 個(gè)訓(xùn)練過(guò)的動(dòng)作庫(kù)中提出動(dòng)作建議,比如“抓起”紙巾、“撿起”瓶子,或“扔掉”瓶子。豪斯曼說(shuō),機(jī)器會(huì)承認(rèn)自己的局限性,比如“我實(shí)際上沒(méi)有能力將其清理干凈,但我可以給你拿一塊海綿。”該團(tuán)隊(duì)最近報(bào)告了這個(gè)名為 SayCan 項(xiàng)目的結(jié)果。
賦予機(jī)器人語(yǔ)言模型的另一個(gè)好處是,它能輕易理解同義詞和其他語(yǔ)言。一個(gè)人說(shuō)“扭轉(zhuǎn)”,而另一個(gè)人說(shuō)“旋轉(zhuǎn)”,機(jī)器人都能聽(tīng)懂。谷歌的研究科學(xué)家夏飛說(shuō):“我們嘗試過(guò)的最瘋狂的事情是,它還能理解表情符號(hào)。”
4. 機(jī)器人正在學(xué)習(xí)進(jìn)化
SayCan 可能是迄今為止最先進(jìn)的基于語(yǔ)言學(xué)習(xí)的機(jī)器人展示。而且語(yǔ)言和圖像模型也正在不斷改進(jìn),創(chuàng)造出更好、更復(fù)雜的預(yù)訓(xùn)練技術(shù)。
但夏謹(jǐn)慎地克制著自己的興奮。“有人半開(kāi)玩笑地說(shuō),我們達(dá)到了‘機(jī)器人 GPT’時(shí)刻,”他說(shuō)。他指的是能夠理解大量人類命令的開(kāi)創(chuàng)性語(yǔ)言模型,“實(shí)際上我們還沒(méi)到那一步,還有很多東西有待探索。”
例如,這些模型可能會(huì)提供錯(cuò)誤的答案或采取錯(cuò)誤的行動(dòng),研究人員正試圖了解這些問(wèn)題。而且,盡管人類的身體直覺(jué)建立在童年玩玩具的基礎(chǔ)上,但機(jī)器人仍然需要與現(xiàn)實(shí)世界的互動(dòng)來(lái)發(fā)展這種直覺(jué)。
盡管如此,進(jìn)展還是很快。越來(lái)越多的研究人員相信,更智能的機(jī)器人將是最終結(jié)果。納史木汗追溯了機(jī)器的進(jìn)化過(guò)程,“我們先有鍵盤(pán)和鼠標(biāo),然后是觸摸屏,”他說(shuō),下一步是接地氣的語(yǔ)言。你將與自己的電腦進(jìn)行對(duì)話,問(wèn)它某些問(wèn)題的答案,或者讓它幫你做一些事情。他說(shuō):“讓機(jī)器人助理?yè)碛谐瑥?qiáng)能力的夢(mèng)想還沒(méi)有實(shí)現(xiàn)。但我認(rèn)為這很快就會(huì)發(fā)生。”