《Disney +》 迪士尼、Marvel、彼思、星球大戰…  《The Persistence Enhanced》6月11日登陸PS5,支援視覺和效能強化   《MONSTER HUNTER RISE》免費大型更新!增加新魔物與開放獵人Rank等新要素!   數位卡夫特最新作《Fight of Steel: Infinity Warrior》實機遊玩畫面曝光!   《Ratchet and Clank》闖入《Fall Guys》舉辦了限時活動並提供獨特獎勵   PS Plus 會員免費暢玩魔界村!「Capcom Arcade Stadium」於 PS4・Xbox One・Steam 推出!   令人驚異的360Hz刷新率!MSI旗下新品牌的「Oculux NXG253R」電競螢幕即將在日本開賣!   全球首款!專為躺著使用設計的VR設備「HalfDive」亮相   《Stranger Of Paradise Final Fantasy Origin》試玩版預覽——正統派動作,遊戲世界觀令人不禁想起原作! 

Google 研究:AI模型事實核查能力評測標準出爐

商業

Google 近期發布了一項重要的研究成果,推出名為「FACTS Grounding」的評測系統,專門用來評估大型語言模型在回應長篇內容時的事實準確度。這項研究由 Google DeepMind、Google Research、Google Cloud 以及 Kaggle 共同合作完成,為 AI 模型的事實核查能力建立了新的標準。

評測系統核心設計

FACTS Grounding 採用了兩階段的評估機制:首先評估模型是否正確理解並回應用戶的要求,接著再判斷回應內容是否完全基於提供的文件。研究團隊特別設計了一個包含 1719 個測試案例的資料集,其中 860 個公開測試案例,859 個則作為私密測試使用。這些測試案例涵蓋了多個領域,包括醫療、法律、科技、金融等領域,文件長度最長可達 32,000 個標記。

評測方法的創新之處

研究團隊採用了多重評判機制,結合了三個不同的 AI 評判模型:Gemini 1.5 Pro、GPT-4o 以及 Claude 3.5 Sonnet。這種設計可以降低單一評判模型可能帶來的偏見。評分過程中,系統會先剔除不符合用戶要求的回應,再由這三個評判模型分別給出事實準確度評分,最後取平均值作為最終分數。

Gemini 1.5 Flash表現最好,平均分數85.8分,排名第一
Gemini 2.0 Flash實驗版次之,平均85.6分,排名第二
OpenAI的o1-mini和preview版本表現較弱,分別為62.5分和62.1分,排在最後

重要研究發現

研究結果顯示,當前最先進的語言模型在這項測試中表現各異。Gemini 2.0 Flash Experimental 和 Gemini 1.5 Flash 在測試中表現最為出色,分別獲得了 83.6% 和 82.9% 的最終分數。其他模型如 Gemini 1.5 Pro、Claude 3.5 Sonnet 和 GPT-4o 的表現也相當不錯,分數都在 78% 以上。

評測系統的特點與優勢

FACTS Grounding 的一大特色是其全面性,不僅測試模型的摘要能力,還評估模型在查找事實、分析比較資訊等多種任務中的表現。系統的評分標準非常嚴格,要求模型的回應必須完全基於提供的文件內容,不能添加任何外部知識,即使這些外部知識本身是正確的。

對 AI 發展的意義

這項研究對 AI 領域的發展具有意義,首先,它為評估 AI 模型的事實準確度提供了一個標準化的框架。其次,它揭示了當前 AI 模型在處理長文本時的優勢和局限性。研究指出,即使是最先進的模型,在處理複雜的事實核查任務時仍有提升空間。

未來展望

研究團隊表示,FACTS Grounding 評測系統將持續更新維護,並歡迎更多研究者參與使用。這個評測系統的建立,不僅有助於改進 AI 模型的事實核查能力,也為未來 AI 技術的發展提供了重要的參考標準。

研究局限性

研究團隊也坦承,由於測試文件來自網際網路,可能已經包含在模型的預訓練數據中。不過,研究者認為這並不影響評測的有效性,因為所有前沿語言模型都使用了大量的網路數據進行訓練,這反而確保了評測的公平性。此外,評測系統主要關注模型對新問題的回應能力,而不是簡單的記憶力測試。

這項研究的發布,標誌著 AI 領域在可信度評估方面邁出了重要一步。隨著 AI 技術的不斷發展,像 FACTS Grounding 這樣的評測系統將在確保 AI 模型的可靠性和實用性方面發揮越來越重要的作用。

來源:https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding_paper.pdf?utm_source=www.therundown.ai&utm_medium=newsletter&utm_campaign=openai-s-mini-dev-day-upgrades&_bhlid=58ecdd2e0879af65835341e9429f272932f6b299

本文由Techapple整理,開版圖由AI生成。

TechApple

隨機商業新聞

Gearbest