阿里巴巴通義實驗室近日推出了圖像生成和編輯模型ACE(All-round Creator and Editor),相當於一個能聽懂人說話的影像生成和編輯助手。以往需要專業修圖軟件才能完成的工作,現在只要用自然語言描述,這個AI助手就能完成,包括生成新圖片、修改現有圖片、轉換畫面風格等等。技術方面,該模型基於擴散變換器(Diffusion Transformer)架構,通過創新性地引入長上下文條件單元(LCU)和統一條件格式,實現了對自然語言指令的深度理解和執行,為視覺內容創作提供了一個高效靈活的統一解決方案。
像跟人對話一樣修圖
ACE最大的特色是能理解連續的對話指令。就像跟設計師溝通一樣,你可以一步一步說出想要的修改,比如「把背景改成藍色」、「加一隻貓在左邊」、「讓整體風格更卡通一點」,系統都能記住前文並準確執行每個要求。
核心技術突破:長上下文條件單元
模型的關鍵創新在於引入了長上下文條件單元(LCU),這一技術能夠有效整合歷史資訊與當前文本指令,使模型更準確地理解用戶需求並生成符合期望的圖像。通過條件標記化技術,ACE可以將文本指令和視覺資訊分別編碼成序列並進行合併處理,實現多模態資訊的精準對齊。
完整功能體系
ACE提供了全方位的圖像處理功能,包括:
- 多模態視覺生成:支援文本指令生成圖像,並可進行風格轉換、物件添加刪除等操作
- 圖像編輯:提供語義編輯、元素編輯以及重繪等功能
- 長上下文處理:透過LCU技術保持多輪對話中圖像編輯任務的連貫性
- 單一模型多任務處理:採用統一後端響應所有圖像創建請求,避免複雜的視覺代理流程
技術突破重點
阿里在這個系統中加入了一個重要創新:「長上下文條件單元」,讓AI能像人腦一樣記住並理解整個修改過程的上下文,確保每次修改都能符合用戶的整體要求,而不是各自為政。這樣的設計讓使用者可以像跟助理溝通一樣,自然地完成複雜的圖像創作和編輯任務。
來源:https://developer.aliyun.com/article/1642027
項目官網:https://ali-vilab.github.io/ace-page
如果你正在找AI課程,以下這篇可能會幫到你:香港6大AI課程全面比較:價格、時數、內容一覽| AI學習心得分享