《Disney +》 迪士尼、Marvel、彼思、星球大戰…  KOF XV新角色「坂崎百合」角色預告公開!   「Indie World Showcase 8.11.2021」日本版遊戲整理!   準備迎接PlayStation「2021 Days of Play」社群慶祝活動   KONAMI《eFootball 2022》試遊活動! 起在9月30日公開前看看遊戲內容!   真‧電競能量飲!?「ZONe PlayStation 5 edition Ver.PS5」喝給你看!   《決勝時刻》為歡慶節日,推出「節慶熱力四射」   KOF XV新角色「克里斯」短片公開!那個傳說中的隊伍復活了!   Nintendo Switch Lite又推出新顏色?這次是「藍色」! 

DeepSeek 的突破性論文中的 原生稀疏注意力 解說與技術優勢

商業

DeepSeek 近日發佈了一篇技術論文報告,稱 NSA 針對現代硬件進行了優化設計,能夠加速推理過程,同時降低預訓練成本,且不犧牲性能。當中提及的原生稀疏注意力 (Native Sparse Attention,簡稱 NSA)到底是什麼東西?今次我們為大家解說一下。

1. 傳統注意力機制面臨的挑戰

在傳統的注意力機制中,模型需要計算所有文字或代幣之間的關係。如果一段文本很長(例如幾千到上萬個字),這種方式的運算量會呈二次方增長,導致:

  • 運算緩慢:實際應用時處理速度減慢,影響模型的即時反應能力。
  • 計算資源消耗大:需要大量的硬體資源來支持,對於大規模應用來說成本較高。

2. 原生稀疏注意力的概念

為了解決上面所提到的問題,NSA 採用了一種全新的動態階層式稀疏策略。簡單來說,它的核心思想包括兩個部分:

  • 粗略壓縮:首先,對長文本中的所有代幣進行一個初步的「概覽」,快速捕捉整體的語意輪廓或大致信息。
  • 細緻選擇:在這個基礎上,進一步挑選出與當前任務最相關的部分,確保模型能夠兼顧全局語意與局部細節。

這兩步結合的方式,使得模型在處理長文本時不必計算每一對代幣之間的關係,而只專注於關鍵信息,從而大大減少不必要的計算。

3. 與硬體緊密結合的設計

NSA 不僅在算法上做出創新,更特別的是其設計上與現代硬體架構(例如 GPU、TPU 等)進行了協同優化。這種硬體對齊的設計有以下好處:

  • 平衡運算密度與內存存取:通過合理配置計算任務,充分發揮硬體加速器的效能,提升整體運算速度。
  • 端到端訓練支持:傳統的稀疏注意力機制有時候需要額外的預處理步驟,影響訓練效率。而 NSA 的設計允許模型進行端到端訓練,簡化了流程並大幅降低了訓練成本。

4. 原生稀疏注意力帶來的優勢

總結 NSA 技術的關鍵優勢,可以歸納為以下幾點:

  • 高效處理長序列
    透過動態篩選重要信息,NSA 能夠顯著降低計算量,在處理極長序列(例如超過 64k 長度的文本)時依然能保持良好的運算速度。
  • 節省資源,降低成本
    減少了全序列計算的冗餘部分,從而減少了運行時所需的算力與硬體資源,對大規模模型訓練尤為重要。
  • 保持模型表現
    儘管減少了計算量,但 NSA 依然能夠保證整體模型在理解全局語境及捕捉細節信息上與全注意力機制相當,甚至在部分長文本任務中表現更加優異。
  • 與現有硬體環境良好匹配
    特別針對現代硬體架構進行了調整,使得在前向傳播、反向傳播和解碼過程中均能獲得明顯的速度提升。

5. 實際應用展望

從長遠來看,這項技術不僅能提升語言模型處理長文本的能力,同時也為未來各種需要快速響應的應用(如即時翻譯、對話系統、內容生成等)提供了良好的技術支持。隨著 NSA 技術的進一步研究與應用,我們可以期待更多高效、資源友好且性能卓越的人工智慧系統問世。


總結而言,「原生稀疏注意力」利用動態階層式策略和硬體對齊的設計,不僅在理論上解決了全序列計算的瓶頸,更在實際應用中展現了高效運算與出色表現的雙重優勢。

TechApple

隨機商業新聞

Gearbest