国产在线日韩在线欧美在线_亚洲av日韩av欧v在线天堂_国产成人av在线播放不卡影院_亚洲无码午夜视频_久久人妻一区二区_菠萝菠萝蜜在线播放_亚洲成人日韩成人_婷婷在线视频第一页_隔壁白嫩少妇夹得真紧_9o岁老太婆一极毛片

麗泰自動化服務(wù)熱線158-1772-7808

相關(guān)產(chǎn)品

聯(lián)系我們
聯(lián)系人:鄧工
熱線:158-1772-7808
手機:15817727808
郵箱:
地址:深圳 公明上村蓮塘工業(yè)城 A區(qū)15(261號);
行業(yè)新聞

人工圖像生成器如何幫助機器人?

時間:2022-10-30 作者:超級管理員 點擊:886次

  人工圖像生成器在夢想和現(xiàn)實的交匯處創(chuàng)造出奇幻的場景,在網(wǎng)絡(luò)的每個角落冒泡。它們的娛樂價值體現(xiàn)在不斷擴大的異想天開和隨機圖像的寶庫中,這些圖像是人類設(shè)計師大腦的間接門戶。一個簡單的文字提示,就會產(chǎn)生一個幾乎瞬間的圖像,滿足我們原始的大腦,這種大腦天生就有瞬間的滿足感。


  雖然看起來很新,但人工智能產(chǎn)生的藝術(shù)領(lǐng)域可以追溯到20世紀60年代。前期嘗試用基于符號規(guī)則的方法制作技術(shù)圖像。盡管解決和解析單詞的模型的開發(fā)變得越來越復(fù)雜,但生成藝術(shù)的爆炸式增長引發(fā)了圍繞版權(quán)、虛假信息和偏見的辯論,所有這些都陷入了炒作和爭議。


  電氣和計算機科學(xué)系博士生、麻省理工學(xué)院計算機科學(xué)和人工智能實驗室(CSAIL)下屬的Yilun Du最近開發(fā)了一種新方法,使DALL-E 2等模型更具創(chuàng)意,并具有更好的場景理解能力。在這里,杜描述了這些模型是如何工作的,這種技術(shù)基礎(chǔ)設(shè)施是否可以應(yīng)用于其他領(lǐng)域,以及我們?nèi)绾卧谌斯ぶ悄芎腿祟悇?chuàng)造力之間劃清界限。


  問:人工智能生成的圖像使用一種稱為“穩(wěn)定擴散”的模型,在短短幾分鐘內(nèi)將文字變成令人震驚的圖像。但每一個被使用的圖像,背后通常都有一個人。那么人工智能和人類創(chuàng)造力的界限是什么?這些模型是如何工作的?


  答:想象一下你在谷歌搜索上能看到的所有圖片及其相關(guān)模式。這就是這些模特喂的飲食。他們接受了所有這些圖像及其標題的訓(xùn)練,以生成類似于它在互聯(lián)網(wǎng)上看到的數(shù)十億張圖像的圖像。


  假設(shè)一個模特看過很多狗的照片。它經(jīng)過訓(xùn)練,當它收到類似的文本輸入提示(如“狗”)時,它能夠生成一張看起來與它已經(jīng)看到的許多狗的照片非常相似的照片?,F(xiàn)在,在方法論上,這一切是如何運作的,可以追溯到一個非常古老的模型,叫做“基于能源的模型”,它起源于20世紀70年代或80年代。


  在基于能量的模型中,構(gòu)建圖像上的能量景觀來模擬物理耗散以生成圖像。當你將一種墨水滴入水中時,它會消散,例如,在最后,你會得到這種均勻的紋理。但如果你試圖逆轉(zhuǎn)這種消散過程,你會逐漸重新獲得水中原有的墨點。


  或者假設(shè)你有一個非常復(fù)雜的積木塔。如果你用球打它,它會塌成一堆積木。然后,這堆積木很雜亂,沒有太多的結(jié)構(gòu)。要恢復(fù)塔,你可以嘗試逆轉(zhuǎn)這一折疊過程,以生成原始的積木。這些模型以非常相似的方式生成圖像。最初,你有這個非常好的形象。你從這個隨機噪聲開始,你基本上學(xué)會了如何模擬如何逆轉(zhuǎn)這個過程,從噪聲回到原始圖像。你試著迭代優(yōu)化這個圖像,讓它越來越逼真。


  就人工智能和人類創(chuàng)造力的界限而言,你可以說這些模型實際上是根據(jù)人的創(chuàng)造力來訓(xùn)練的?;ヂ?lián)網(wǎng)上有人們過去創(chuàng)作的各種繪畫和圖像。這些模型可以被訓(xùn)練來總結(jié)和生成互聯(lián)網(wǎng)上的現(xiàn)有圖像。所以這些模型更像是人們花費了幾百年的創(chuàng)造力的結(jié)晶。


  同時,由于這些模型是根據(jù)人類設(shè)計的內(nèi)容進行訓(xùn)練的,所以它們可以制作出與人類過去所做的非常相似的藝術(shù)作品。他們可以找到藝術(shù)領(lǐng)域的人制作的圖案,但這些模型很難自己實際生成有創(chuàng)意的照片。


  如果你試圖輸入“抽象藝術(shù)”或者“獨特藝術(shù)”這樣的提示,它并沒有真正理解人類藝術(shù)的創(chuàng)造性方面,相反,這些模型可以說是總結(jié)了人們過去所做的事情,而不是產(chǎn)生新的創(chuàng)造性藝術(shù)。


  由于這些模型是在互聯(lián)網(wǎng)上的大量圖像上訓(xùn)練的,所以它們中的許多可能受到版權(quán)保護。你并不知道模型在生成一張新圖片的時候到底在檢索什么,所以有一個很大的問題,就是如何確定模型是否在使用有版權(quán)的圖片。如果模型在某種意義上依賴于一些有版權(quán)的圖片,那么這些新圖片有版權(quán)嗎?這是另一個需要解決的問題。


  麻省理工學(xué)院學(xué)生解釋人工智能圖像生成器。鳴謝:麻省理工學(xué)院


  問:你認為擴散模型生成的圖像編碼了對自然或物理世界的某種理解,無論是動態(tài)的還是幾何的?有沒有努力“教”圖像生成器嬰兒很久以前就已經(jīng)學(xué)會的宇宙基礎(chǔ)知識?


  答:他們理解代碼中對自然和物理世界的一些掌握嗎?我確定。如果你讓一個模型生成一個穩(wěn)定的塊配置,它一定會生成一個穩(wěn)定的塊配置。如果你告訴它生成一個不穩(wěn)定的塊配置,它看起來確實很不穩(wěn)定?;蛘吣阏f“湖邊的一棵樹”,大致能產(chǎn)生。


  從某種意義上說,這些模型似乎抓住了很大一部分常識。然而,讓我們遠離真正理解自然和物理世界的問題是,當你試圖生成你或我在工作中很容易想象的不尋常的單詞組合時,這些模型是無法想象的。


  例如,如果你說,“把叉子放在盤子上”,這種情況經(jīng)常發(fā)生。如果你要求模型生成這個,那就簡單了。如果你說,“在叉子上放一個盤子”,我們很容易想象它會是什么樣子。然而,如果你把它放入這些大模型中的任何一個,你將永遠不會在叉子上得到一個盤子。相反,你會在盤子的頂部得到一個叉子,因為模型正在學(xué)習(xí)總結(jié)它已經(jīng)訓(xùn)練過的所有圖像。用沒見過的詞組合也不能很好的概括。一個眾所周知的例子是宇航員騎馬,模型可以很容易地完成。但是你說一個宇航員騎馬,還是會產(chǎn)生一個騎馬的人。這些模型似乎捕捉到了它們訓(xùn)練的數(shù)據(jù)集中的大量相關(guān)性,但它們實際上并沒有捕捉到世界的潛在因果機制。


  另一個常見的例子是,如果你得到一個非常復(fù)雜的文本描述,比如一個物體在另一個物體的右邊,第三個物體在前面,第三個或第四個物體在飛。它實際上只能滿足一兩個對象。這可能部分是因為訓(xùn)練數(shù)據(jù),因為很少有非常復(fù)雜的標題,但也可能表明這些模型不是非常結(jié)構(gòu)化。


  可以想象,如果得到非常復(fù)雜的自然語言提示,模型是無法準確表示所有組件細節(jié)的。


  問:你最近提出了一種新方法,使用多種模型來創(chuàng)建更復(fù)雜的圖像,以便更好地理解生成藝術(shù)。這個框架在圖像或文本領(lǐng)域之外有潛在的應(yīng)用嗎?


  答:這些模型的局限性讓我們深受啟發(fā)。當你為這些模型提供非常復(fù)雜的場景描述時,它們實際上無法生成與之正確匹配的圖像。


  一種想法是,既然是固定計算圖的單個模型,就意味著你只能用固定的計算量來生成圖像。如果您收到極其復(fù)雜的提示,您將無法使用更多的計算能力來生成圖像。


  如果我向一個人描述一個場景,比方說,100行長,而不是一個場景長,人類藝術(shù)家可以花更長的時間在前者上。這些模型真的沒有做到這一點的敏感度。然后,我們建議,給定非常復(fù)雜的提示,你實際上可以將許多不同的獨立模型組合在一起,并讓每個單獨的模型代表你想要描述的場景的一部分。


  我們發(fā)現(xiàn)這使得我們的模型能夠生成更復(fù)雜的場景,或者更準確地生成場景的不同方面的場景。此外,這種方法通常可以應(yīng)用于各種領(lǐng)域。雖然圖像生成可能是目前最成功的應(yīng)用,但生成模型實際上已經(jīng)在各個領(lǐng)域看到了所有類型的應(yīng)用。


  你可以使用它們來生成不同的機器人行為,合成3D形狀,更好地理解場景或設(shè)計新材料。您可以將多個所需因素結(jié)合起來,生成特定應(yīng)用所需的精確材料。


  我們一直非常感興趣的一件事是機器人技術(shù)。就像你可以生成不同的圖像一樣,你也可以生成不同的機器人軌跡(路徑和時間表)。通過組合不同的模型,可以生成不同技能組合的軌跡。如果我有一個跳躍和避障的自然語言規(guī)范,你也可以把這些模型結(jié)合起來,生成一個可以跳躍和避障的機器人軌跡。同樣的,如果我們想要設(shè)計蛋白質(zhì),我們可以指定不同的功能或方面——類似于我們使用語言指定圖像內(nèi)容的方式——用類似的語言描述,比如蛋白質(zhì)的類型或功能。然后,我們可以將它們結(jié)合在一起,產(chǎn)生一種新的蛋白質(zhì),滿足所有這些功能。


  我們還探索了擴散模型在三維形狀生成中的應(yīng)用。您可以使用此方法來生成和設(shè)計3D資源。通常,3D資產(chǎn)設(shè)計是一個非常復(fù)雜和費力的過程。通過將不同的模型組合在一起,生成形狀變得更容易,例如“我想要一個具有這種風格和高度的四條腿的3D形狀”,這可能會使3D資產(chǎn)設(shè)計的某些部分自動化。


    特別聲明:文章僅代表作者個人觀點,不代表麗泰的觀點和立場。如果侵犯到您的權(quán)益,版權(quán)或其他問題請及時聯(lián)系我們,我們會第一時間處理。

服務(wù)熱線:158-1772-7808 郵箱: 備案號:粵ICP備2022073641號  網(wǎng)站地圖

地址:深圳 公明上村蓮塘工業(yè)城 A區(qū)15(261號);

主營產(chǎn)品:桁架機械手—直線滑臺模組—立柱碼垛機—直角坐標機器人—智能立體庫

聯(lián)系人:鄧工   電話:158-1772-7808  158-1772-7808   地址:深圳 公明上村蓮塘工業(yè)城 A區(qū)15(261號);