人工智慧公司xAI日前宣布,將開源旗下大型語言模型Grok-1的模型架構和參數權重。Grok-1是一個擁有3140億參數的專家混合模型(Mixture-of-Experts),由xAI從零開始訓練。
Grok-1是xAI在2023年10月完成預訓練的原始基礎模型,尚未針對對話等特定應用進行微調,儘管如此,其強大的語言理解和生成能力已經備受業界關注。xAI選擇以Apache 2.0開源許可釋出模型架構和權重,以促進大模型技術的開放創新。
據悉,Grok-1採用了專家混合(MoE)架構,在給定的token上只激活25%的權重,從而在保證效果的同時顯著提升效率。傳統大型語言模型為每個token計算所有的模型參數,計算消耗大,MoE架構引入了多個專家子網絡,每個token只需激活一部分專家,從而大幅減少計算量。Grok-1創新性地將MoE思想應用到超大規模語言模型中,在推理速度和模型性能之間取得了良好的平衡
此外,Grok-1還採用了一系列優化技術來提升訓練效率,其中,xAI使用定製化的損失函數和稀疏專家網絡,進一步壓縮模型尺寸,在訓練過程中,Grok-1還引入了數據樣本篩選,從龐大的無標註語料中自動發現高質量的數據,這些創新使得Grok-1能夠在3140億參數的規模下依然保持高效訓練。
為支持Grok-1的開發,xAI打造了基於JAX和Rust的定製化訓練技術棧,充分利用了GPU集群的並行計算能力。據透露,xAI還為Grok-1構建了高效的推理引擎,使其能夠在單GPU上毫秒級響應。這為Grok-1在實際應用中的部署提供了有力保障。業內人士認為,Grok-1的開源將使更多研究者和開發者能夠基於大模型進行應用探索和優化,有望催生出更多創新性的自然語言處理解決方案。同時,這也體現了xAI作為一家負責任的AI公司,致力於推動行業的開放協作與共同進步。
不過,訓練Grok-1這樣的超大規模語言模型需要海量的計算和存儲資源,對於大多數中小企業和研究機構而言仍然是一個挑戰。業界呼籲,產學研各界應加強合作,共同構建開放共享的算力和數據資源池,讓大模型技術真正惠及廣大中小企業和創新團隊。無論如何,Grok-1的開源無疑是自然語言處理領域的一個里程碑事件。