人工圖像生成器在夢(mèng)想和現(xiàn)實(shí)的交匯處創(chuàng)造出奇幻的場(chǎng)景,在網(wǎng)絡(luò)的每個(gè)角落冒泡。它們的娛樂價(jià)值體現(xiàn)在不斷擴(kuò)大的異想天開和隨機(jī)圖像的寶庫(kù)中,這些圖像是人類設(shè)計(jì)師大腦的間接門戶。一個(gè)簡(jiǎn)單的文字提示,就會(huì)產(chǎn)生一個(gè)幾乎瞬間的圖像,滿足我們?cè)嫉拇竽X,這種大腦天生就有瞬間的滿足感。
雖然看起來(lái)很新,但人工智能產(chǎn)生的藝術(shù)領(lǐng)域可以追溯到20世紀(jì)60年代。前期嘗試用基于符號(hào)規(guī)則的方法制作技術(shù)圖像。盡管解決和解析單詞的模型的開發(fā)變得越來(lái)越復(fù)雜,但生成藝術(shù)的爆炸式增長(zhǎng)引發(fā)了圍繞版權(quán)、虛假信息和偏見的辯論,所有這些都陷入了炒作和爭(zhēng)議。
電氣和計(jì)算機(jī)科學(xué)系博士生、麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)下屬的Yilun Du最近開發(fā)了一種新方法,使DALL-E 2等模型更具創(chuàng)意,并具有更好的場(chǎng)景理解能力。在這里,杜描述了這些模型是如何工作的,這種技術(shù)基礎(chǔ)設(shè)施是否可以應(yīng)用于其他領(lǐng)域,以及我們?nèi)绾卧谌斯ぶ悄芎腿祟悇?chuàng)造力之間劃清界限。
問:人工智能生成的圖像使用一種稱為“穩(wěn)定擴(kuò)散”的模型,在短短幾分鐘內(nèi)將文字變成令人震驚的圖像。但每一個(gè)被使用的圖像,背后通常都有一個(gè)人。那么人工智能和人類創(chuàng)造力的界限是什么?這些模型是如何工作的?
答:想象一下你在谷歌搜索上能看到的所有圖片及其相關(guān)模式。這就是這些模特喂的飲食。他們接受了所有這些圖像及其標(biāo)題的訓(xùn)練,以生成類似于它在互聯(lián)網(wǎng)上看到的數(shù)十億張圖像的圖像。
假設(shè)一個(gè)模特看過很多狗的照片。它經(jīng)過訓(xùn)練,當(dāng)它收到類似的文本輸入提示(如“狗”)時(shí),它能夠生成一張看起來(lái)與它已經(jīng)看到的許多狗的照片非常相似的照片?,F(xiàn)在,在方法論上,這一切是如何運(yùn)作的,可以追溯到一個(gè)非常古老的模型,叫做“基于能源的模型”,它起源于20世紀(jì)70年代或80年代。
在基于能量的模型中,構(gòu)建圖像上的能量景觀來(lái)模擬物理耗散以生成圖像。當(dāng)你將一種墨水滴入水中時(shí),它會(huì)消散,例如,在最后,你會(huì)得到這種均勻的紋理。但如果你試圖逆轉(zhuǎn)這種消散過程,你會(huì)逐漸重新獲得水中原有的墨點(diǎn)。
或者假設(shè)你有一個(gè)非常復(fù)雜的積木塔。如果你用球打它,它會(huì)塌成一堆積木。然后,這堆積木很雜亂,沒有太多的結(jié)構(gòu)。要恢復(fù)塔,你可以嘗試逆轉(zhuǎn)這一折疊過程,以生成原始的積木。這些模型以非常相似的方式生成圖像。最初,你有這個(gè)非常好的形象。你從這個(gè)隨機(jī)噪聲開始,你基本上學(xué)會(huì)了如何模擬如何逆轉(zhuǎn)這個(gè)過程,從噪聲回到原始圖像。你試著迭代優(yōu)化這個(gè)圖像,讓它越來(lái)越逼真。
就人工智能和人類創(chuàng)造力的界限而言,你可以說(shuō)這些模型實(shí)際上是根據(jù)人的創(chuàng)造力來(lái)訓(xùn)練的?;ヂ?lián)網(wǎng)上有人們過去創(chuàng)作的各種繪畫和圖像。這些模型可以被訓(xùn)練來(lái)總結(jié)和生成互聯(lián)網(wǎng)上的現(xiàn)有圖像。所以這些模型更像是人們花費(fèi)了幾百年的創(chuàng)造力的結(jié)晶。
同時(shí),由于這些模型是根據(jù)人類設(shè)計(jì)的內(nèi)容進(jìn)行訓(xùn)練的,所以它們可以制作出與人類過去所做的非常相似的藝術(shù)作品。他們可以找到藝術(shù)領(lǐng)域的人制作的圖案,但這些模型很難自己實(shí)際生成有創(chuàng)意的照片。
如果你試圖輸入“抽象藝術(shù)”或者“獨(dú)特藝術(shù)”這樣的提示,它并沒有真正理解人類藝術(shù)的創(chuàng)造性方面,相反,這些模型可以說(shuō)是總結(jié)了人們過去所做的事情,而不是產(chǎn)生新的創(chuàng)造性藝術(shù)。
由于這些模型是在互聯(lián)網(wǎng)上的大量圖像上訓(xùn)練的,所以它們中的許多可能受到版權(quán)保護(hù)。你并不知道模型在生成一張新圖片的時(shí)候到底在檢索什么,所以有一個(gè)很大的問題,就是如何確定模型是否在使用有版權(quán)的圖片。如果模型在某種意義上依賴于一些有版權(quán)的圖片,那么這些新圖片有版權(quán)嗎?這是另一個(gè)需要解決的問題。
麻省理工學(xué)院學(xué)生解釋人工智能圖像生成器。鳴謝:麻省理工學(xué)院
問:你認(rèn)為擴(kuò)散模型生成的圖像編碼了對(duì)自然或物理世界的某種理解,無(wú)論是動(dòng)態(tài)的還是幾何的?有沒有努力“教”圖像生成器嬰兒很久以前就已經(jīng)學(xué)會(huì)的宇宙基礎(chǔ)知識(shí)?
答:他們理解代碼中對(duì)自然和物理世界的一些掌握嗎?我確定。如果你讓一個(gè)模型生成一個(gè)穩(wěn)定的塊配置,它一定會(huì)生成一個(gè)穩(wěn)定的塊配置。如果你告訴它生成一個(gè)不穩(wěn)定的塊配置,它看起來(lái)確實(shí)很不穩(wěn)定?;蛘吣阏f(shuō)“湖邊的一棵樹”,大致能產(chǎn)生。
從某種意義上說(shuō),這些模型似乎抓住了很大一部分常識(shí)。然而,讓我們遠(yuǎn)離真正理解自然和物理世界的問題是,當(dāng)你試圖生成你或我在工作中很容易想象的不尋常的單詞組合時(shí),這些模型是無(wú)法想象的。
例如,如果你說(shuō),“把叉子放在盤子上”,這種情況經(jīng)常發(fā)生。如果你要求模型生成這個(gè),那就簡(jiǎn)單了。如果你說(shuō),“在叉子上放一個(gè)盤子”,我們很容易想象它會(huì)是什么樣子。然而,如果你把它放入這些大模型中的任何一個(gè),你將永遠(yuǎn)不會(huì)在叉子上得到一個(gè)盤子。相反,你會(huì)在盤子的頂部得到一個(gè)叉子,因?yàn)槟P驼趯W(xué)習(xí)總結(jié)它已經(jīng)訓(xùn)練過的所有圖像。用沒見過的詞組合也不能很好的概括。一個(gè)眾所周知的例子是宇航員騎馬,模型可以很容易地完成。但是你說(shuō)一個(gè)宇航員騎馬,還是會(huì)產(chǎn)生一個(gè)騎馬的人。這些模型似乎捕捉到了它們訓(xùn)練的數(shù)據(jù)集中的大量相關(guān)性,但它們實(shí)際上并沒有捕捉到世界的潛在因果機(jī)制。
另一個(gè)常見的例子是,如果你得到一個(gè)非常復(fù)雜的文本描述,比如一個(gè)物體在另一個(gè)物體的右邊,第三個(gè)物體在前面,第三個(gè)或第四個(gè)物體在飛。它實(shí)際上只能滿足一兩個(gè)對(duì)象。這可能部分是因?yàn)橛?xùn)練數(shù)據(jù),因?yàn)楹苌儆蟹浅?fù)雜的標(biāo)題,但也可能表明這些模型不是非常結(jié)構(gòu)化。
可以想象,如果得到非常復(fù)雜的自然語(yǔ)言提示,模型是無(wú)法準(zhǔn)確表示所有組件細(xì)節(jié)的。
問:你最近提出了一種新方法,使用多種模型來(lái)創(chuàng)建更復(fù)雜的圖像,以便更好地理解生成藝術(shù)。這個(gè)框架在圖像或文本領(lǐng)域之外有潛在的應(yīng)用嗎?
答:這些模型的局限性讓我們深受啟發(fā)。當(dāng)你為這些模型提供非常復(fù)雜的場(chǎng)景描述時(shí),它們實(shí)際上無(wú)法生成與之正確匹配的圖像。
一種想法是,既然是固定計(jì)算圖的單個(gè)模型,就意味著你只能用固定的計(jì)算量來(lái)生成圖像。如果您收到極其復(fù)雜的提示,您將無(wú)法使用更多的計(jì)算能力來(lái)生成圖像。
如果我向一個(gè)人描述一個(gè)場(chǎng)景,比方說(shuō),100行長(zhǎng),而不是一個(gè)場(chǎng)景長(zhǎng),人類藝術(shù)家可以花更長(zhǎng)的時(shí)間在前者上。這些模型真的沒有做到這一點(diǎn)的敏感度。然后,我們建議,給定非常復(fù)雜的提示,你實(shí)際上可以將許多不同的獨(dú)立模型組合在一起,并讓每個(gè)單獨(dú)的模型代表你想要描述的場(chǎng)景的一部分。
我們發(fā)現(xiàn)這使得我們的模型能夠生成更復(fù)雜的場(chǎng)景,或者更準(zhǔn)確地生成場(chǎng)景的不同方面的場(chǎng)景。此外,這種方法通??梢詰?yīng)用于各種領(lǐng)域。雖然圖像生成可能是目前最成功的應(yīng)用,但生成模型實(shí)際上已經(jīng)在各個(gè)領(lǐng)域看到了所有類型的應(yīng)用。
你可以使用它們來(lái)生成不同的機(jī)器人行為,合成3D形狀,更好地理解場(chǎng)景或設(shè)計(jì)新材料。您可以將多個(gè)所需因素結(jié)合起來(lái),生成特定應(yīng)用所需的精確材料。
我們一直非常感興趣的一件事是機(jī)器人技術(shù)。就像你可以生成不同的圖像一樣,你也可以生成不同的機(jī)器人軌跡(路徑和時(shí)間表)。通過組合不同的模型,可以生成不同技能組合的軌跡。如果我有一個(gè)跳躍和避障的自然語(yǔ)言規(guī)范,你也可以把這些模型結(jié)合起來(lái),生成一個(gè)可以跳躍和避障的機(jī)器人軌跡。同樣的,如果我們想要設(shè)計(jì)蛋白質(zhì),我們可以指定不同的功能或方面——類似于我們使用語(yǔ)言指定圖像內(nèi)容的方式——用類似的語(yǔ)言描述,比如蛋白質(zhì)的類型或功能。然后,我們可以將它們結(jié)合在一起,產(chǎn)生一種新的蛋白質(zhì),滿足所有這些功能。
我們還探索了擴(kuò)散模型在三維形狀生成中的應(yīng)用。您可以使用此方法來(lái)生成和設(shè)計(jì)3D資源。通常,3D資產(chǎn)設(shè)計(jì)是一個(gè)非常復(fù)雜和費(fèi)力的過程。通過將不同的模型組合在一起,生成形狀變得更容易,例如“我想要一個(gè)具有這種風(fēng)格和高度的四條腿的3D形狀”,這可能會(huì)使3D資產(chǎn)設(shè)計(jì)的某些部分自動(dòng)化。
特別聲明:文章僅代表作者個(gè)人觀點(diǎn),不代表麗泰的觀點(diǎn)和立場(chǎng)。如果侵犯到您的權(quán)益,版權(quán)或其他問題請(qǐng)及時(shí)聯(lián)系我們,我們會(huì)第一時(shí)間處理。