由 Google 研究部門工程師 Shwetak Patel 和 Shravya Shetty 宣布了研究成果,該研究旨在利用大規模語言模型(LLM)來提升個人健康與養生的洞察能力,該研究引入了一個全新大型語言模型,旨在理解和推理個人健康問題和數據,並提供高質量個性化建議。
革新性的 AI 健康洞察
多模態數據分析能力
行動裝置和穿戴設備能夠持續提供個人生理狀態和行為的細緻、長期數據,例如步數計算、心率變異性、睡眠時長等。這些數據對於個人健康監控和激勵健康行為具有重要意義。為了充分利用這些數據,AI 模型必須具備處理複雜時間序列和零散信息(如運動記錄)的能力,並能夠結合相關的個人健康領域知識,生成個性化的解釋和建議。
例如,對於常見的健康問題「如何改善睡眠?」來說,生成個性化回應需要進行一系列複雜分析步驟,包括檢查數據可用性、計算平均睡眠時長、識別睡眠模式異常、將這些發現置於個人整體健康背景中,並結合睡眠標準提供針對性的改善建議。
Gemini 模型的進階應用
基於 Gemini 模型的多模態和長上下文推理能力,Google 展示了如何在多樣化醫療任務中實現最先進的功能。研究強調了兩種互補的方法來提供準確的個人健康與養生資訊:
- 「Towards a Personal Health Large Language Model」:展示了經過專家分析和自報結果微調的 LLM 能夠成功地將生理數據應用於個人健康任務。
- 「Transforming Wearable Data into Personal Health Insights Using Large Language Model Agents」:強調了代碼生成和基於代理的工作流程,通過自然語言查詢準確分析行為健康數據的價值。
個人健康大規模語言模型(PH-LLM)
PH-LLM 是一個經過微調的 Gemini 模型版本,旨在生成改善個人健康行為(如睡眠和健身模式)的洞察和建議。通過多模態編碼器,PH-LLM 能夠同時優化文本理解和推理,以及穿戴設備提供的原始時間序列生理數據(如心率變異性和呼吸率)的解釋。
系統評估
為系統評估 PH-LLM,我們創建並策劃了一套三個基準數據集,測試模型在以下方面的能力:
- 基於測量的睡眠模式、體育活動和生理反應產生詳細洞察和建議。
- 專家級領域知識。
- 預測自我報告的睡眠質量評估。
根據來自美國用戶的 857 個案例研究,這些案例代表了真實世界中的教練場景,展示了模型通過解釋時間序列生理數據進行理解、推理和指導的能力。綜合評估結果顯示,無論是健身還是睡眠,Gemini Ultra 1.0 和 PH-LLM 的性能與專家表現無顯著差異。
評估專家領域知識
為進一步評估專家領域知識,我們測試了 PH-LLM 在睡眠醫學和健身認證考試風格的多選問題數據集上的表現。PH-LLM 在睡眠(N=629 道問題)和健身(N=99 道問題)中分別達到了 79% 和 88% 的正確率,均超過了人類專家的平均分數(分別為 76% 和 71%)。
預測自我報告的睡眠質量
為使 PH-LLM 預測自我報告的睡眠質量,我們訓練模型使用穿戴設備傳感器數據的文本和多模態編碼表示來回應經過驗證的調查問題。結果顯示,多模態編碼在 12 個測試結果中優於純文本表示,表明多模態編碼在預測這些結果方面具有顯著優勢。
將穿戴數據轉化為個人健康洞察
LLM 可以通過軟體工具擴展其能力,例如代碼生成和信息檢索。他們引入基於 Gemini Ultra 1.0 的個人健康洞察代理,結合了代碼生成能力和信息檢索工具,能夠迭代分析原始穿戴數據,並提供個性化分析和建議。
結論
研究目標是開發有助於人們更長壽、更健康生活的功能,睡眠和運動是人口健康關鍵組成部分,也是預測早逝重要指標。通過案例研究、個人健康領域知識和開放式查詢,研究為支持個性化洞察和建議的 AI 模型奠定了基礎,使個人能夠從自己健康數據中得出準確且可行結論,期待通過仔細測試和理解,找到對用戶最有幫助的功能。
注:本文開版圖由AI生成。