微軟 AI 診斷編排器震撼世界！正確率85%勝醫師？

微軟AI團隊發布的研究成果震撼各界，其開發的「微軟AI診斷編排器」（MAI-DxO）在處理《新英格蘭醫學雜誌》（NEJM）複雜病例時，診斷正確率高達85.5%，遠超過經驗豐富的醫師群體。這項突破性技術不僅準確率驚人，在成本控制方面也表現卓越，為醫療領域的人工智能應用開啟全新篇章。

根據微軟AI團隊於6月30日發布的研究報告，MAI-DxO系統針對304個NEJM病例進行測試，結果顯示其診斷準確率達到85%，相較之下，21位來自美國和英國、擁有5至20年臨床經驗的執業醫師，在相同測試中的平均準確率僅為20%。這意味著AI系統的表現超出人類醫師四倍以上。

與傳統醫學AI系統不同，MAI-DxO採用序列診斷方法，模擬真實世界的醫療決策過程。系統從初始患者症狀開始，逐步選擇問題和診斷測試，最終得出診斷結論。這種方法更貼近臨床實際，避免了多選題測試可能造成的過度簡化問題。

微軟AI團隊開發了「序列診斷基準」（SD Bench），將304個NEJM病例轉化為逐步診斷測試。每個診斷步驟都會產生虛擬成本，反映真實醫療支出，讓系統能在診斷準確性和資源消耗兩個維度上進行評估。

MAI-DxO的核心創新在於其編排器架構，能夠將任何語言模型轉化為虛擬醫師團隊。系統可以提出後續問題、安排檢查或給出診斷，然後進行成本檢查並驗證自身推理，最後決定是否繼續進行。

這種模型無關的方法促進了可審計性和韌性，在高風險、快速發展的臨床環境中具備關鍵優勢。研究團隊測試了包括GPT、Llama、Claude、Gemini、Grok和DeepSeek在內的多種前沿生成式AI模型，MAI-DxO都能提升每個模型的診斷表現。

令人驚喜的是，MAI-DxO不僅在診斷準確性方面表現卓越，在成本控制上也優於人類醫師和單一基礎模型。這對於解決美國醫療支出佔GDP近20%、其中高達25%被浪費的問題具有重大意義。

系統能夠在定義的成本約束內運作，避免了AI系統可能默認進行所有可能檢查的問題，考慮了成本、患者不適和護理延誤等因素。研究發現，MAI-DxO在提供更高診斷準確性的同時，整體檢測成本也更低。

微軟表示，在其AI消費產品如Bing和Copilot中，每天有超過5000萬次健康相關查詢。從首次膝關節疼痛查詢到深夜搜尋急診診所，搜尋引擎和AI助手正快速成為醫療保健的新前線。

這項技術的潛在影響深遠，AI可以賦能患者自我管理常規護理，並為臨床醫師提供複雜病例的進階決策支援。與傳統醫師需要在廣度和深度之間做出取捨不同，AI能夠結合兩者，展現出在臨床推理能力方面超越任何個人醫師的潛力。

儘管成果令人振奮，研究團隊也坦承技術的局限性。雖然MAI-DxO在處理最複雜的診斷挑戰方面表現出色，但仍需進一步測試以評估其在更常見日常病例中的表現。研究中的臨床醫師在沒有同事、教科書甚至生成式AI輔助的情況下工作，這可能不符合正常臨床實務。

目前這項技術尚未獲得臨床使用批准，需要經過嚴格的安全測試、臨床驗證和監管審查。微軟強調，任何在真實世界部署這項技術的計劃，核心都是對安全、信任和品質的承諾。

微軟正與領先的醫療機構合作，嚴格測試和驗證這些方法，這是任何更廣泛推廣之前的必要步驟。團隊強調，生成式AI在醫療保健中安全負責任地部署之前，仍有重要挑戰需要解決，包括來自真實臨床環境的證據，以及適當的治理和監管框架。

說實話，微軟這次發布的研究成果確實令人震撼，85%對20%的懸殊差距足以讓整個醫界重新思考AI的角色定位。但我們也不能被這些亮眼數字沖昏頭腦，背後的問題同樣值得深思。

首先，測試環境的設定頗有爭議。讓經驗豐富的醫師在沒有任何輔助工具的情況下診斷NEJM這種頂級期刊的複雜病例，這種「裸考」模式是否公平？在實際臨床環境中，醫師會有團隊協作、文獻查閱、甚至AI輔助，這種孤立測試是否真實反映臨床實務？

更值得警惕的是，這種技術可能加劇醫療資源的不平等分配。當AI診斷系統成為標配時，那些無法負擔先進技術的醫療機構和患者該怎麼辦？技術進步可能會創造新的醫療鴻溝，而非縮小現有差距。

最具爭議的問題是醫師角色的重新定義。雖然微軟強調AI是「補充」而非「取代」醫師，但當機器在核心診斷能力上表現如此優異時，醫師的專業價值究竟還剩什麼？同理心和溝通能力真的足以維持醫師的不可替代性嗎？