《Disney +》 迪士尼、Marvel、彼思、星球大戰…  《暗影火炬城》標誌性兔子主角雷德文的設計花絮   NieR、DOD開發團隊的完全新作RPG《Voice of Cards ドラゴンの島》正式發表!   Pokemon聯乘Spingle Company!Pokemon和訓練員運動鞋登場!   有關《Voice of Cards:龍之島》你該知道的一切   《零 ~濡鴉之巫女~》重製版登場!官網、PV&初回特典情報公開!   《Star Wars: Knights of the Old Republic – Remake》──為PlayStation 5重製的傳奇   GBVS「Legendary Edition」和「Cygames Greatest Hits」決定發售!碧藍幻想2021新情報總結   DeNA 公開可以將任意聲音轉換成角色聲音的聲音轉換 AI「VOICE AVATAR 七聲妮娜」 

Magic 發布 100 M Token上下文 AI 模型 研究進展

商業

現在的大語言AI模型很多時受限於上下文長度限制而無法釋放全部潛力,Magic近日發布了關於其超長上下文模型的最新研究進展,並介紹了與Google Cloud的合作以及新一輪的資金籌集情況。該模型的設計旨在加強AI的學習能力,特別是在推理階段。

新技術:長期記憶模型

目前AI模型的學習主要依賴於訓練和推理過程中的上下文,但短上下文一直是主要的限制因素。Magic的長期記憶(LTM)模型能夠在推理過程中處理最多100M個token的上下文,這一改變有望顛覆以往依賴模糊記憶的方式。

上下文評估的挑戰

目前的長上下文評估方法存在缺陷。例如,流行的「Needle In A Haystack」評估將一個隨機事實(“Needle”)放置在長上下文窗口(“Haystack”)中,要求模型檢索該事實,這方法容易受到語義提示影響,限制評估準確性。

為了解決這些問題,Magic設計了HashHop方法。該方法使用隨機 Hash,要求模型在任何給定上下文大小下,存儲和檢索最大可能的信息內容。這項技術的關鍵在於模型必須能夠從複雜的上下文中提取信息,而不依賴於明確的語義提示。

新模型性能

Magic最近訓練了首個100M token上下文模型:LTM-2-mini。該模型能夠處理約1000萬行代碼或約750部小說的內容。與Llama 3.1 405B的注意力機制相比,LTM-2-mini在解碼每個token時,其序列維度算法成本低廉,約為其1000倍。

在內存需求方面,運行Llama 3.1 405B所需的100M token KV緩存需要638個H100,而LTM模型則只需單個H100的極小部分內存,顯示出顯著的效率優勢。

應用場景擴展

除了在代碼和語言模型上的評估外,Magic還發現,對小模型進行哈希訓練並測量性能,對其架構研究非常有幫助。該模型在生成計算器方面表現出色,展示了其即時學習的能力,能夠在沒有人工干預的情況下對開源代碼庫進行編輯。

與Google Cloud的合作

Magic 宣佈與 Google Cloud 展開合作,計劃在其平台上構建下一代超級計算機Magic-G4和Magic-G5。這些計算機將使用NVIDIA H100和GB200 NVL72 GPU,並可以隨著時間的推移擴展到數萬個Blackwell GPU。

Eric Steinberger,Magic的首席執行官表示:「我們很高興能與Google和NVIDIA合作,通過Google Cloud構建下一代AI超級計算機。」

Magic 資金籌集

Magic最近籌集了總計465M美元的資金,其中包括來自Eric Schmidt、Jane Street、Sequoia等新投資者的3.2億美元投資。這筆資金將支持Magic在AI推理方面的進一步研發。

資料來源:https://magic.dev/blog/100m-token-context-windows

TechApple

隨機商業新聞

Disney+