《Disney +》 迪士尼、Marvel、彼思、星球大戰…  今年也辛苦了!Saiga NAK編輯部同仁的精選報導!   《KOF XV》新角色介紹短片「馬克西馬」公開!還有久違的隊伍發表!   炸彈人大逃殺遊戲「超級炸彈人R online」第3季開幕!新炸彈人&新活動舉行!   進入Norsfell《Tribes of Midgard》的世界——協力動作RPG於7月 27日正式推出   下一次會是什麼「之鬪」呢?數位卡夫特實施新遊戲問卷調查!   P&D龍族拼圖 2020東京奧運活動 依日本隊獎牌數送魔法石!   PlayStation獨立遊戲優惠活動於PlayStation Store隆重登場   NVIDIA發表最新型號顯示卡「GeForce RTX 3060」 

阿里通義實驗室推出 ACE ,能聽懂人說話的影像生成和編輯助手

商業

阿里巴巴通義實驗室近日推出了圖像生成和編輯模型ACE(All-round Creator and Editor),相當於一個能聽懂人說話的影像生成和編輯助手。以往需要專業修圖軟件才能完成的工作,現在只要用自然語言描述,這個AI助手就能完成,包括生成新圖片、修改現有圖片、轉換畫面風格等等。技術方面,該模型基於擴散變換器(Diffusion Transformer)架構,通過創新性地引入長上下文條件單元(LCU)和統一條件格式,實現了對自然語言指令的深度理解和執行,為視覺內容創作提供了一個高效靈活的統一解決方案。

像跟人對話一樣修圖

ACE最大的特色是能理解連續的對話指令。就像跟設計師溝通一樣,你可以一步一步說出想要的修改,比如「把背景改成藍色」、「加一隻貓在左邊」、「讓整體風格更卡通一點」,系統都能記住前文並準確執行每個要求。

核心技術突破:長上下文條件單元

模型的關鍵創新在於引入了長上下文條件單元(LCU),這一技術能夠有效整合歷史資訊與當前文本指令,使模型更準確地理解用戶需求並生成符合期望的圖像。通過條件標記化技術,ACE可以將文本指令和視覺資訊分別編碼成序列並進行合併處理,實現多模態資訊的精準對齊。

完整功能體系

ACE提供了全方位的圖像處理功能,包括:

  • 多模態視覺生成:支援文本指令生成圖像,並可進行風格轉換、物件添加刪除等操作
  • 圖像編輯:提供語義編輯、元素編輯以及重繪等功能
  • 長上下文處理:透過LCU技術保持多輪對話中圖像編輯任務的連貫性
  • 單一模型多任務處理:採用統一後端響應所有圖像創建請求,避免複雜的視覺代理流程

技術突破重點

阿里在這個系統中加入了一個重要創新:「長上下文條件單元」,讓AI能像人腦一樣記住並理解整個修改過程的上下文,確保每次修改都能符合用戶的整體要求,而不是各自為政。這樣的設計讓使用者可以像跟助理溝通一樣,自然地完成複雜的圖像創作和編輯任務。

來源:https://developer.aliyun.com/article/1642027

項目官網:https://ali-vilab.github.io/ace-page

如果你正在找AI課程,以下這篇可能會幫到你:香港6大AI課程全面比較:價格、時數、內容一覽| AI學習心得分享

TechApple

隨機商業新聞

Gearbest