隨著雲端科技、大數據 和量子計算的發展,連專家都對如何從超大規模(mega-scale)或微細規模(milli-scale)的資料中,精鍊出有用資訊而困擾時,「第四範式」(the Fourth Paradigm)這個名詞愈來愈頻繁地出現在相關的論文、研討會以及書籍上。
- 那麼,什麼是「第四範式」呢?
「第四範式」是由 Microsoft 的研究員,也是資料庫領域的大師級人物 Jim Gray 所提出的。Jim Gray 在資料庫與交易處理系統上的貢獻,讓他曾經獲得資訊科學領域中的最高榮耀 圖靈獎(Turing Award)。
Gray 在 1995 年加入 Microsoft,他長期致力於可擴展計算(Scalable Computing),並從 2002 年開始聚焦於 eScience,也就是應用新的資料分析演算法來解決資料密集(Data-Intensive)方面的科學問題。
如果你有學過資料庫,一定有聽過為了維持交易的可靠性與一致性,必須滿足「ACID」:Atomicity、Consistency、Isolation、Durability 這個原則,而此原則正是 Gray 所提出的:
1. Atomicity
一個交易(Transaction)是一個不可再分割的完整個體,它不是全部執行,就是全部不執行。以在 ATM 領錢來說,從你輸入密碼、到拿到錢、到帳戶扣帳為止,都必須正確執行完成。
2. Consistency
如果交易是全部執行,能讓資料庫從某個一致狀態,轉變到另一個一致狀態。以在 ATM 領錢來說,你領了 100 元,帳戶一定會少了 100 元。
3. Isolation
某交易執行期間所用的資料或中間結果,不容許其它交易讀取或寫入,直到此交易被確認(Commit,即:成功結束)為止;也就是說,它不應該被同時執行的其它交易所干擾。
以在 ATM 領錢來說,你領錢時,公司會計正好也在別家銀行辦理薪資轉帳,此時,若是你開始領錢的時間較早,那麼系統會將你的交易鎖定,直到你領錢的動作全部完成,才會再處理將你的薪資轉入你的戶頭的交易,反之亦然。
4. Durability
一旦交易全部執行,且經過確認(Commit)後,此作業對資料庫所做的變更永遠有效,即使未來系統當機或毀損。也就是說,你提錢之後,帳戶少了 100 元就是少了 100 元,不會在經過一段時間後又恢復原來的金額。
- 數千年前的科學演進,從「第一範式」演進到處理資料密集科學的「第四範式」
Gray 提出,科學範式(Science Paradigm)的發展始於數千年前,當時的科學以實驗為主,稱為「第一範式」(the First Paradigm);過去數百年的科學發展中,出現了理論科學,透過模型和歸納法來做驗證,稱為 「第二範式」(the Second Paradigm); 而過去的數十年間,科學發展出現了計算科學,讓我們可以透過模擬,針對複雜現象進行分析,稱為「第三範式」(the Third Paradigm)。
如今,我們應該整合理論、實驗和計算,進而能在未知的情況下進行分析發現其中的規律,稱為「第四範式」,也就是從計算科學中將資料密集科學(Data-Intensive Science)區分出來做為新的探索。
然而,2007 年 1 月,Gray 卻在海上消失了,直到目前為止都沒有任何線索,大家都猜測他應該是遇到船難了。如果你對 Gray 的研究有興趣,可以參考他在 Microsoft 的網頁。
(參考資料:research.microsoft;圖片來源:dullhunk,CC Licensed)
Source: techorange.com