Meta 宣布推出最新版本的開源大型語言模型 Meta Llama 3.1 ,其中包括一個具有4050億參數的龐大模型,被認為是目前最強大的開源AI模型。這次更新不僅提升了模型的性能,還擴展了其應用範圍,為開源AI領域帶來重大突破。
Llama 3.1模型規格與性能
Llama 3.1系列包括三個模型:8B、70B和405B,分別代表模型的參數數量,性能在開源模型中相當出眾,亦優於好些閉源舊模型。
其中,405B模型是Meta迄今為止最大的開源模型。Meta聲稱,這個模型在多項基準測試中的表現可以與頂級閉源AI模型相媲美,包括GPT-4和Claude 3.5 Sonnet。
主要特點:
- 上下文長度擴展至128K tokens
- 支持8種語言的多語言能力
- 改進的推理和工具使用能力
使用大量GPU訓練
為了訓練如此龐大的模型,Meta對其訓練基礎設施進行了重大優化。405B模型的訓練使用了超過16,000個H100 GPU,這在開源模型訓練中是前所未有的規模。
模型架構:
- 採用標準的僅解碼器transformer架構
- 使用迭代式後訓練程序,結合監督微調和直接偏好優化
- 改進了預訓練和後訓練數據的質量和數量
應用與生態系統
Meta強調,Llama 3.1不僅是一個模型,更是一個完整的系統。公司發布了一個參考系統,包括多個示例應用和新組件,如多語言安全模型Llama Guard 3和提示注入過濾器Prompt Guard。
生態系統支持:
- 25多個合作夥伴在發布當天就提供了相關服務
- 包括AWS、NVIDIA、Databricks等主要科技公司
Meta Llama 開源及未來
Meta CEO Mark Zuckerberg強調了開源AI的重要性,認為這可以確保更多人能夠獲得AI的好處,防止權力集中,並促進技術的安全部署。Meta表示,雖然405B模型是目前最大的版本,但公司仍在探索新的領域,包括更適合設備的小型模型、額外的模態,以及對代理平台層的更多投資。
總結
Llama 3.1 的發布標誌著開源AI模型在性能上首次真正挑戰頂級閉源模型。這不僅展示了Meta在AI領域的技術實力,也為整個AI社區帶來了新的機遇和挑戰。
POE已經上線有關模型,可以試用,其中最大形的要1500點一次,消耗甚至比一堆近日推出的高效模型更高,小模型8B 版本只要50點,但能力上不太能滿足今日要求。