Google 近期發布了一項重要的研究成果,推出名為「FACTS Grounding」的評測系統,專門用來評估大型語言模型在回應長篇內容時的事實準確度。這項研究由 Google DeepMind、Google Research、Google Cloud 以及 Kaggle 共同合作完成,為 AI 模型的事實核查能力建立了新的標準。
評測系統核心設計
FACTS Grounding 採用了兩階段的評估機制:首先評估模型是否正確理解並回應用戶的要求,接著再判斷回應內容是否完全基於提供的文件。研究團隊特別設計了一個包含 1719 個測試案例的資料集,其中 860 個公開測試案例,859 個則作為私密測試使用。這些測試案例涵蓋了多個領域,包括醫療、法律、科技、金融等領域,文件長度最長可達 32,000 個標記。
評測方法的創新之處
研究團隊採用了多重評判機制,結合了三個不同的 AI 評判模型:Gemini 1.5 Pro、GPT-4o 以及 Claude 3.5 Sonnet。這種設計可以降低單一評判模型可能帶來的偏見。評分過程中,系統會先剔除不符合用戶要求的回應,再由這三個評判模型分別給出事實準確度評分,最後取平均值作為最終分數。
重要研究發現
研究結果顯示,當前最先進的語言模型在這項測試中表現各異。Gemini 2.0 Flash Experimental 和 Gemini 1.5 Flash 在測試中表現最為出色,分別獲得了 83.6% 和 82.9% 的最終分數。其他模型如 Gemini 1.5 Pro、Claude 3.5 Sonnet 和 GPT-4o 的表現也相當不錯,分數都在 78% 以上。
評測系統的特點與優勢
FACTS Grounding 的一大特色是其全面性,不僅測試模型的摘要能力,還評估模型在查找事實、分析比較資訊等多種任務中的表現。系統的評分標準非常嚴格,要求模型的回應必須完全基於提供的文件內容,不能添加任何外部知識,即使這些外部知識本身是正確的。
對 AI 發展的意義
這項研究對 AI 領域的發展具有意義,首先,它為評估 AI 模型的事實準確度提供了一個標準化的框架。其次,它揭示了當前 AI 模型在處理長文本時的優勢和局限性。研究指出,即使是最先進的模型,在處理複雜的事實核查任務時仍有提升空間。
未來展望
研究團隊表示,FACTS Grounding 評測系統將持續更新維護,並歡迎更多研究者參與使用。這個評測系統的建立,不僅有助於改進 AI 模型的事實核查能力,也為未來 AI 技術的發展提供了重要的參考標準。
研究局限性
研究團隊也坦承,由於測試文件來自網際網路,可能已經包含在模型的預訓練數據中。不過,研究者認為這並不影響評測的有效性,因為所有前沿語言模型都使用了大量的網路數據進行訓練,這反而確保了評測的公平性。此外,評測系統主要關注模型對新問題的回應能力,而不是簡單的記憶力測試。
這項研究的發布,標誌著 AI 領域在可信度評估方面邁出了重要一步。隨著 AI 技術的不斷發展,像 FACTS Grounding 這樣的評測系統將在確保 AI 模型的可靠性和實用性方面發揮越來越重要的作用。
本文由Techapple整理,開版圖由AI生成。