“Google深度學習實驗室DeepMind發布Gecko:全面評估AI文本轉圖像模型的新標準”
Google的DeepMind發布了Gecko,一種全面評估AI文字至圖像(T2I)模型的新基準。
在過去兩年中,我們看到AI圖片生成器如DALL-E以及Midjourney隨每次版本發布而逐漸進化。
然而,決定這些平台使用哪種底層模型最好主要是主觀的,也難以基準化。
要廣泛宣稱一種模型“比另一種好”並不簡單。不同的模型擅長於生成圖像的各種方面:有的可能善於文本渲染,而有的可能在對象互動上更佳。
T2I模型面臨的一個重要挑戰是要能精確地反映出提示中的每一個細節,並在生成的圖像中準確地呈現出來。
在Gecko的研發過程中,DeepMind的研究員們創建了一個基準,以評估T2I模型的能力,並以類似於人類的方式進行。
技能集
研究人員首先確定了一組與生成T2I相關的全面技能數據集,包括空間理解、動作識別、文本渲染等等,並將這些技能進一步細分為更具體的子技能。
例如,在文本渲染方面,子技而可能包括渲染不同字體、顏色或文字大小等項目。
之後再利用語言模型生成提示來測試T2I模型在特定技能或子技能上的表現。
這使得T2I模型的創作者不僅可以標識出哪些技能具有挑戰性,還可以確定一項技能變得具有挑戰性的複雜程度。
人工評估vs自動評估
Gecko還能測量T2I模型遵循提示中所有細節的準確性。同樣地,語言模型被用來分離每個輸入提示中的關鍵細節,並生成一組與這些細節相關的問題。
這些問題可以是關於圖像中可見元素的簡單、直接問題(例如,“圖像中是否有一隻貓?”),也可以是測試理解場景或物體關係的更複雜問題(例如,“貓是否坐在書的上方?”)。
然後一個視覺問題回答(VQA)模型便分析生成的圖像並回答問題,以查看T2I模型的輸出圖像與輸入提示如何對齊。
根據人工評估的結果作為黃金標準,研究人員確認他們的自動評估指標“與人類評分在我們的新數據集上的關聯性超過了現有的指標”。
結果是一套能夠實際評數生成圖像質量好壞的基準系統。
實質上,Gecko是根據我們憑直覺判斷生成圖像是否令人滿意的方式對輸出圖像進行評分。
那麼,最好的文字到圖像模型是什麼呢?
研究人員在他們的論文中總結,Google的Muse模型在Gecko基準測試中超越了Stable Diffusion 1.5 和SDXL。雖然可能存在偏見,但數字是無法造假的。


Google的DeepMind公司推出了Gecko,這是一套新的評估標準,用於全面評估AI文字至圖像(T2I)模型的效能。
在過去兩年中,我們見證了像是DALL-E和Midjourney等AI圖像生成器的不斷進化,每次版本更新都有明顯的進步。
然而,決定哪一種模型最好,這大多是主觀判斷,且實在難以進行標準化的評估。
要簡單地說出一種模型比另一種“好”並不容易。不同的模型在圖像生成的各個方面有其優勢,例如,一種模型可能在文字呈現方面表現良好,而另一種模型可能在物體互動上更優秀。
T2I模型所面臨的一個關鍵挑戰是,如何根據提示細節,並在生成的圖像中準確地反映出來。
有了Gecko,DeepMind的研究人員創建了一種評估標準,評估T2I模型的能力,其方法與人類相似。
技能設定
研究人員首先定義了一套與T2I生成相關的技能資料集。這些技能包括空間理解、行為識別、文字呈現等等,並將這些技能進一步細分成更具體的子技能。
例如,在文字呈現下,子技能可能包括渲染不同的字體、顏色或文字大小。
然後使用一種語言模型來生成提示,以測試T2I模型在特定技能或子技能上的表現。
這不僅使得T2I模型的創建者能精確地找出哪些技能更具挑戰性,而且能了解到模型在何種複雜度的技能成為挑戰。

人類評估 vs 自動評估
Gecko還測量一個T2I模型如何準確遵循提示中的所有細節。同樣的,使用一種語言模型來確定每個輸入提示中的關鍵細節,並生成一組相關的問題。
這些問題可能是簡單的、關於圖像中可見元素的直接問題(例如,“圖像中有一隻貓嗎?”),也可能是更複雜的問題,測試對場景或物體之間關係的理解(例如,“貓是坐在書的上方嗎?”)。
然後使用視覺問答(VQA)模型來分析生成的圖像並回答問題,以檢查T2I模型如何將其輸出圖像與輸入提示對齊。
研究人員收集了超過100,000以上的人類標籤,參與者根据圖片與某種特定标准標籤的對齊程度來評分圖片。
人類評估者被要求考慮輸入提示的某個特定方面,並根據圖像與提示對齊的程度一共有1到5分的範圍打分。
利用人類評分標籤作為黃金標準,研究人員證實他們的自動評估標準“與人類評分對於我們新資料集的相關性更高。”
結果就是一種能夠為生成圖像好壞的具體因素賦予數字的評估系統。
Gecko以我們人類直觀判斷生成圖像好壞的方式,對輸出圖像進行評分。
那麼,哪種文字至圖像的模型最好呢?
在他們的論文中,研究人員得出的結論是,Google的Muse模型在Gecko評估標準中優於Stable Diffusion 1.5和SDXL。他們或許存在偏見,但數據並不會說謊。
詳細報導:Google的Gecko評估標準識別出最佳的AI圖像生成器。文章首次發表於DailyAI。
Google’s Gecko benchmark identifies best AI image generator
(引文來源:完整新聞連結)