<var id="v1prt"></var><var id="v1prt"><dl id="v1prt"><listing id="v1prt"></listing></dl></var>
<var id="v1prt"></var>
<var id="v1prt"><strike id="v1prt"><listing id="v1prt"></listing></strike></var>
<var id="v1prt"></var>
<var id="v1prt"><strike id="v1prt"></strike></var><var id="v1prt"><strike id="v1prt"></strike></var>
<var id="v1prt"><strike id="v1prt"></strike></var><var id="v1prt"><video id="v1prt"><thead id="v1prt"></thead></video></var>

Imagen AI,從自然文本中生成逼真的圖像

2022-06-23 05:31曹欣
電腦報 2022年23期
關鍵詞:壽司圖像模型

曹欣

說起DALL-E2的大名,很多關注人工智能科技行業的讀者都了解??梢哉f,文本生成圖像這個堪比考驗人工智能想象力的技術制高點,被DALL-E2發揮得淋漓盡致。在OpenAI宣布DALL-E2(其最新的從文本創建圖像的 AI 系統)大約一個月后,Google 的“文本到圖像擴散模型Imagen”加入到了這場AI競賽中。

使用標準度量FID(Frechet Inception Distance score,計算真實圖像和生成圖像的特征向量之間距離的一種度量),Google Imagen 在COCO(Common Objects in Context,是微軟團隊提供的一個可以用來進行圖像識別的數據集)數據集上以 7.27 的得分超過了Open AI 的 DALL-E2。盡管沒有使用COCO進行“培訓”,但Imagen的表現仍然很好。Imagen 在人工評分者中也優于 DALL-E2 和其他競爭的文本到圖像方法。

Imagen的工作原理是采用自然語言文本輸入,例如“一只戴著藍色格子貝雷帽和紅色圓點高領毛衣的金毛獵犬”,然后使用T5-XXL 編碼器將該輸入文本轉換為嵌入。接下來“條件擴散模型”將文本嵌入映射到一個小的64×64 圖像中,Imagen使用文本條件超分辨率擴散模型將64×64圖像采樣為256×256和1024×1024。

與去年秋天NVIDIA的GauGAN2方法相比,Imagen 在靈活性和結果方面都有了顯著的提升,意味著影像基礎的人工智能正在迅速發展。比如右面這張“一只柯基犬住在用壽司做的房子里”的圖片,看起來真實度很高,就像有人真的用壽司建造了一個狗屋,而且柯基犬很喜歡它,其實這一切都是虛構的。

一些用戶在訪問Imagen后會立即開始輸入各種短語,比如:“一對機器人夫婦在埃菲爾鐵塔的背景下享用美食?!比绻麤]有特定的關鍵詞,有可能生成的人種、膚色會不同。我們不知道Imagen如何處理這些文本字符串,文本到圖像的研究還存在倫理挑戰。

多倫多的天際線,上面寫著用煙花寫的大腦標志

一只可愛的柯基犬住在用壽司做的房子里,想想要真正拍攝會多不容易

如果文字中沒有“機器人”這個詞,這對夫婦的照片會是什么樣子?

從技術上說,此次谷歌的Imagen拋棄了從文本特征映射到圖像特征再用GAN或擴散模型生成圖像的常規思路,而是使用純語言模型只負責編碼文本特征,把文本到圖像轉換的工作丟給了圖像生成模型。

當然,這里的圖像生成模型,依然是擴散模型。這就意味著其純文本數據獲取方面比獲取圖文數據容易,其文本理解能力比圖文對數據的理解能力強。我們想象一下,一個模型可以從文本中創建幾乎任何圖像,像Imagen這樣的AI模型主要是使用從網絡上抓取的數據集進行訓練的,互聯網上的內容可能存在偏差和偏見,有些還具有負面的社會影響,人工智能如何能鑒別?

所以,Google為Imagen使用了 LAION-400M 數據集,眾所周知,該數據集“包含大量不當內容,包括色情圖像、種族主義誹謗和有害的社會刻板印象”,訓練組的子集可以用來過濾這些“不受歡迎的”訊息。

而且Google Imagen此次優秀的表現還是在并不大(相對而言)的訓練數據規模上,實驗中發現,擴大語言模型的規模對最后效果影響更大。盡管Imagen表現卓越,在理解方面很多情況下表現都強于DALL-E2,不過它還是有缺點,正常情況下,如果文字比較“繞口”,AI也能畫出來,但如果劍走偏鋒,提一個反常識的畫,比如正常情況下是人騎馬,而我們偏偏讓AI畫馬騎人,這樣這兩個AI就熄火,無法運行了。

由此看來,目前的人工智能再強,它們還是不理解實質的含義。即便如此,這款新出的AI也已經夠驚世駭俗的了。不用說,大家剛從OpenAI的DALL-E2的震驚中走出來,又遭遇更震撼“暴擊”??吹靡槐娮x者目瞪口呆,一時間驚呼不斷,感嘆科技進步之快,難怪有人表示,以后的圖庫是不是就會被人工智能取代了?先取代設計師的圖庫素材庫,再取代設計師,如果AI按這個步驟來,那么我們豈不是更不敢放心用AI的圖庫素材?

猜你喜歡
壽司圖像模型
從壽司用料看中日飲食文化交流
自制空間站模型
A、B兩點漂流記
模型小覽(二)
學做壽司
旋轉壽司
圓周運動與解題模型
離散型隨機變量分布列的兩法則和三模型
趣味壽司
名人語錄的極簡圖像表達
亚洲欧洲无码精品Ⅴa