Google DeepMind 與南加州大學的研究人員宣布開發出名為SELF-DISCOVER的新框架,顯著提高了大型語言模型(LLM)如GPT-4和PaLM 2的推理能力。這一進展被視為在賦予LLM解決複雜推理任務方面的重大飛躍。SELF-DISCOVER提示框架使LLM能夠自主構建針對特定問題的明確推理結構。早期結果顯示,該框架相較於現有的如思維鏈提示等方法,實現了顯著的性能改進。
框架的核心概念是讓LLM識別和利用可重用的推理模塊,為給定的任務建立內在的推理結構。主要方面包括:
- LLM利用提供的一組原子推理技能(例如批判性思考、逐步分析)來構建推理流程。
- 這種推理結構是通過分析實例專門為任務構建的。
- 在解碼最終解決方案時,LLM遵循自我發現的推理結構。
這種技術模仿了人類如何分解和解決問題,使LLM能夠有效地自學最優的推理模式。
研究人員對框架在多樣的推理任務中進行了評估,並取得了顯著的進步。例如:
- 在使用GPT-4的Big Bench Hard任務上,準確率提高到81%,相比之下,思維鏈的準確率為75%。
- 在Thinking for Doing科學推理任務上,達到了85%,而CoT的準確率為80%。
- 對於數學文字問題,準確率達到了73%,超過了CoT的69%。
這項研究標誌著在提升LLM推理能力和使AI更接近於類人通用智能方面的重要里程碑,該框架強勁的性能和跨任務可轉移性展示了其作為一種通用方法引導LLM通過複雜推理的潛力。模型可以發現並構建針對特定問題的流程,而不是遵循預設的推理。
隨著LLM規模擴大,整合SELF-DISCOVER等框架將是釋放其潛能,這種方法可能成為提升領先LLM推理能力的核心技術,研究人員強調將其整合到GPT-4和PaLM等模型將是下一個進程。未來的研究還可以探索組合框架,其中模型結合自我發現的推理與其他方法,如常識知識。這可能導致更加顯著的性能提升。
隨著LLM在規模和複雜性上的增長,解鎖強大的推理能力對於實現安全、有用的應用至關重要。SELF-DISCOVER的突破性進展凸顯了通過提示創新驅動模型邁向更先進智能的快速進步。