專訪：港大經管學院多模態AI圖像生成大比拼，中國模型表現突出

港大經管學院近日發表《人工智能模型圖像生成能力綜合評測報告》，對15個文生圖模型及7個多模態大語言模型進行全面評估。研究顯示，字節跳動的即夢AI和豆包，以及百度的文心一言在圖像生成及修改能力方面表現突出，挑戰國際AI巨頭在此領域的領導地位。

研究團隊由港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授（戰略信息管理學）蔣鎮輝領導，這也是繼《人工智能大語言模型評測綜合排行榜》及《人工智能大語言模型圖像理解能力綜合評測報告》後的又一研究成果。一向關注AI發展的TechApple，今次也特別走訪了蔣鎮輝教授，分享有關是次評測和AI未來發展的看法。

評測方法：全面衡量圖像生成能力

本次評測主要針對兩大核心範疇：新圖像生成和圖像修改。在新圖像生成方面，評測從內容質素和安全與責任性兩大維度進行。

內容質素評估包括三個關鍵指標：

圖文一致性：衡量圖像是否準確反映文字指令中的物件、場景或概念
圖像合理可靠性：評估圖像內容的事實準確性，確保符合現實世界規律
圖像美感：衡量圖像的美學質素，包括構圖、色彩協調性和創意等

安全與責任性評估則涵蓋偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私/肖像侵犯等方面。

中國模型表現亮眼

在新圖像生成的內容質素方面，字節跳動的即夢AI表現最佳，獲得1,123分。百度的文心一言V3.2.0、Midjourney v6.1及豆包緊隨其後。

然而，在安全與責任方面，OpenAI的GPT-4o評分最高，達6.04分，通義千問V2.5.0和Google的Gemini 1.5 Pro分別以5.49分及5.23分位列第二、第三位。這反映出部分文生圖模型雖在內容質素表現優異，卻在安全與責任方面存在顯著短板。

值得一提的是，近期備受關注的DeepSeek所推出的文生圖模型Janus-Pro，在新圖像生成內容質素及安全與責任兩大方面的表現均相對欠佳，其內容質素排名更是敬陪末席，作為新產品，看來仍有待進步。

圖像修改能力：中國模型再顯優勢

在13個支援圖像修改的模型中，豆包、即夢AI和文心一言V3.2.0均表現出色，緊隨其後的是GPT-4o和Gemini 1.5 Pro。這再次證明中國AI模型在多模態應用方面的競爭力。值得注意的是，同屬百度的文心一格2在新圖像生成內容質素與圖像修改兩項核心範疇的表現均不盡理想。

專訪蔣鎮輝教授：評測背景與未來展望

在接受專訪時，蔣鎮輝教授解釋了開展此次評測的背景：”在當前AI競爭日益激烈的情況下，很多人都想了解哪種模型最好，特別是在部份地區，部份模型無法使用，大家非常關心有沒有替代模型可用。”

他補充道：”我們希望通過這些評測幫助大家更好地了解各個模型的優劣勢，促進更多的合作與交流。就像Apple最近進入中國大陸市場時，需要選擇AI合作夥伴一樣，這類評測能夠為跨國企業的技術合作提供客觀參考。”

評測設計的獨特性

談到評測方法，蔣教授詳細介紹了團隊的評測框架：”圖像生成評測分為新圖像生成和圖像修改兩部分。圖像修改更為複雜，因為模型需要先理解現有圖像內容，再進行修改。”

在評測過程中，團隊發現了一些常見問題，例如模型在生成人物時經常出現六指等解剖結構錯誤，以及在圖像中添加文字時的困難。”這些看似簡單的任務，對AI模型來說卻是重大挑戰，”蔣教授指出。

研究團隊的下一步計劃

對於未來研究方向，蔣教授表示，接下來將評測AI模型的推理能力，這是判斷模型性能的關鍵指標。此外，他們對多模態模型與互聯網連接能力的結合也很感興趣，但這也給評測帶來了挑戰，因為有時難以判斷模型的回答是來自其自身知識還是網絡搜索。

AI發展趨勢與社會影響

蔣教授認為，過去兩年AI領域經歷了大爆發，這一趨勢在未來幾年將持續。”AI正在影響各行各業，這種衝擊非常大，”他表示，”我們需要研究不同的應用場景，探索如何將AI技術轉化為實際生產力。” 同時，他也指出AI對就業市場的衝擊：”現在很多金融和科技公司都在減少招聘，因為AI可以替代部分工作。這是一個社會挑戰，我們需要思考如何應對。”

安全與倫理：AI發展的關鍵課題

蔣教授強調了AI安全與倫理的重要性：”在AI使用過程中，必須確保輸出內容不會產生危害。例如，AI不應生成暴力、誤導性內容，或教導使用者做壞事。”

“未來的政府監管需要考慮如何規範AI公司的行為，以及如何保護用戶權益。這是一個平衡創新與安全的問題，”他補充道。

行業前景展望

對於AI圖像生成技術的未來發展，蔣教授預測多模態AI將成為未來發展方向，AI能夠在更多行業和場景中應用。未來的發展不僅是單一模態，而是多模態結合，甚至包括不同的文件格式轉換和處理。另外，可以調用不同程式工作的AI代理(AI Agent)相信亦會是未來AI發展的一大方向。

結語

港大經管學院的這項研究為AI圖像生成能力提供了客觀評估，不僅顯示了中國AI模型在該領域的競爭力，也指出了現有技術的局限和改進方向。隨著AI技術持續演進，安全與責任問題將愈發重要，而多模態融合能力也將成為未來發展的關鍵。對於企業和個人用戶而言，這份評測報告提供了寶貴參考，有助於在日益複雜的AI生態系統中做出更明智的選擇。

詳細比拚結果，可以參閱：https://hkubs.hku.hk/aimodelrankings/image_generation

隨機商業新聞