《Disney +》 迪士尼、Marvel、彼思、星球大戰…  《垂死之光2 堅守人性》:看跑酷與創意戰鬥如何點燃精采動作   遊戲與日常使用一機搞定!支援藍牙的電競耳麥 ASUS 華碩「ROG Strix Go BT」!   《原神》2.2版本更新:驅散籠罩在鶴觀的疑霧吧!   由VTuber「せんのいのり」擔任活動大使的日本仙台「仙台ゲームフェス」電競娛樂活動舉辦確定!   深入探索《零》令人膽顫心驚的全新拍照模式   延伸遊玩優惠優惠進駐PlayStation Store   Switch版「Apex英雄」容量為30GB…容量不夠該怎麼辦?由Saiga NAK編輯部精選出三大值得推薦的microSD卡!   營運即將開始!官方播出了「NieR Re[in]carnation」的直播節目#1!並提供事前下載! 

阿里通義實驗室推出 ACE ,能聽懂人說話的影像生成和編輯助手

商業

阿里巴巴通義實驗室近日推出了圖像生成和編輯模型ACE(All-round Creator and Editor),相當於一個能聽懂人說話的影像生成和編輯助手。以往需要專業修圖軟件才能完成的工作,現在只要用自然語言描述,這個AI助手就能完成,包括生成新圖片、修改現有圖片、轉換畫面風格等等。技術方面,該模型基於擴散變換器(Diffusion Transformer)架構,通過創新性地引入長上下文條件單元(LCU)和統一條件格式,實現了對自然語言指令的深度理解和執行,為視覺內容創作提供了一個高效靈活的統一解決方案。

像跟人對話一樣修圖

ACE最大的特色是能理解連續的對話指令。就像跟設計師溝通一樣,你可以一步一步說出想要的修改,比如「把背景改成藍色」、「加一隻貓在左邊」、「讓整體風格更卡通一點」,系統都能記住前文並準確執行每個要求。

核心技術突破:長上下文條件單元

模型的關鍵創新在於引入了長上下文條件單元(LCU),這一技術能夠有效整合歷史資訊與當前文本指令,使模型更準確地理解用戶需求並生成符合期望的圖像。通過條件標記化技術,ACE可以將文本指令和視覺資訊分別編碼成序列並進行合併處理,實現多模態資訊的精準對齊。

完整功能體系

ACE提供了全方位的圖像處理功能,包括:

  • 多模態視覺生成:支援文本指令生成圖像,並可進行風格轉換、物件添加刪除等操作
  • 圖像編輯:提供語義編輯、元素編輯以及重繪等功能
  • 長上下文處理:透過LCU技術保持多輪對話中圖像編輯任務的連貫性
  • 單一模型多任務處理:採用統一後端響應所有圖像創建請求,避免複雜的視覺代理流程

技術突破重點

阿里在這個系統中加入了一個重要創新:「長上下文條件單元」,讓AI能像人腦一樣記住並理解整個修改過程的上下文,確保每次修改都能符合用戶的整體要求,而不是各自為政。這樣的設計讓使用者可以像跟助理溝通一樣,自然地完成複雜的圖像創作和編輯任務。

來源:https://developer.aliyun.com/article/1642027

項目官網:https://ali-vilab.github.io/ace-page

如果你正在找AI課程,以下這篇可能會幫到你:香港6大AI課程全面比較:價格、時數、內容一覽| AI學習心得分享

TechApple

隨機商業新聞

Addidas