《Disney +》迪士尼、Marvel、彼思、星球大戰… 狩獵魂！書道家青柳美扇於「狩獵解禁前！MONSTER HUNTER RISE 線上直播會」現場表演！日本知名Cosplayer紫花菫於「Tales of」系列官方頻道參加演出！八位堂推出可以在NS、PC、Android等眾多平台使用的多功能遊戲手把「8BitDo Pro 2」！碧藍幻想GRANBLUE FANTASY更新！ 12月和多啦A夢合作！《虹彩六號：圍攻行動》最新賽季「腥紅劫案」即日推出 CoD最新作Call of Duty: Vanguard11月5日發售！『超級炸彈人R線上遊戲』5月27日開放下載！「老蛇炸彈人」將在商店中登場！曾獲日本遊戲設計大獎2020的《Baba Is You》登上智慧型手機平台！

阿里通義實驗室推出 ACE ，能聽懂人說話的影像生成和編輯助手

商業星期五, 十一月 29, 2024

阿里巴巴通義實驗室近日推出了圖像生成和編輯模型ACE（All-round Creator and Editor），相當於一個能聽懂人說話的影像生成和編輯助手。以往需要專業修圖軟件才能完成的工作，現在只要用自然語言描述，這個AI助手就能完成，包括生成新圖片、修改現有圖片、轉換畫面風格等等。技術方面，該模型基於擴散變換器（Diffusion Transformer）架構，通過創新性地引入長上下文條件單元（LCU）和統一條件格式，實現了對自然語言指令的深度理解和執行，為視覺內容創作提供了一個高效靈活的統一解決方案。

阿里通義實驗室推出 ACE ，能聽懂人說話的影像生成和編輯助手 11

像跟人對話一樣修圖

ACE最大的特色是能理解連續的對話指令。就像跟設計師溝通一樣，你可以一步一步說出想要的修改，比如「把背景改成藍色」、「加一隻貓在左邊」、「讓整體風格更卡通一點」，系統都能記住前文並準確執行每個要求。

核心技術突破：長上下文條件單元

模型的關鍵創新在於引入了長上下文條件單元（LCU），這一技術能夠有效整合歷史資訊與當前文本指令，使模型更準確地理解用戶需求並生成符合期望的圖像。通過條件標記化技術，ACE可以將文本指令和視覺資訊分別編碼成序列並進行合併處理，實現多模態資訊的精準對齊。

完整功能體系

ACE提供了全方位的圖像處理功能，包括：

多模態視覺生成：支援文本指令生成圖像，並可進行風格轉換、物件添加刪除等操作
圖像編輯：提供語義編輯、元素編輯以及重繪等功能
長上下文處理：透過LCU技術保持多輪對話中圖像編輯任務的連貫性
單一模型多任務處理：採用統一後端響應所有圖像創建請求，避免複雜的視覺代理流程

技術突破重點

阿里在這個系統中加入了一個重要創新：「長上下文條件單元」，讓AI能像人腦一樣記住並理解整個修改過程的上下文，確保每次修改都能符合用戶的整體要求，而不是各自為政。這樣的設計讓使用者可以像跟助理溝通一樣，自然地完成複雜的圖像創作和編輯任務。

來源：https://developer.aliyun.com/article/1642027

項目官網：https://ali-vilab.github.io/ace-page

如果你正在找AI課程，以下這篇可能會幫到你：香港6大AI課程全面比較:價格、時數、內容一覽| AI學習心得分享

Micorsoft