大數據(big data)這個詞,恐怕是近兩年 IT 界炒得最熱的詞彙之一了。各種論壇、會議,言必談大數據,在 IT 界不跟風說兩句「大數據長,大數據短」都不好意思跟人說自己是搞 IT 的。
先從概念上來說,大數據是什麼?
其實數據處理從人類誕生時期就有了,古人結繩記事就是基本的統計,統計自己吃了幾頓飯、打了幾次獵等等;再往近說,皇帝每晚翻嬪妃的牌子也是數據處理,在翻牌子之前,要從一大堆牌子裡分析「方便」、「熱度高」、「新鮮度」等指標;更近的說,數據倉庫早在大數據這個詞出現前就已經成熟發展了好幾十年了。所以說,大數據並不新鮮,只是某些技術如 Hadoop、MR、Storm、Spark 發展到一定階段,順應這些技術炒出來的概念,但是這些概念都基於一個基本的理念「開源」,這個理念是之前任何階段都沒有過,可以節省費用提高效率,所以大家才都往這個行業裡扔火柴。
- 謬誤一:只有搞大數據技術開發的,才是真正「圈內人」
筆者曾經參加過若干會議,70% 是偏技術的,在場的都是國內各個數據相關項目經理和技術帶頭人,大家討論的話題都是在升級 CDH 版本的時候有什麼問題、在處理 Hive 作業的時候哪種方式更好、在 Storm、Kafka 匹配時如何效率更高、在 Spark 應用時內存如何釋放這些問題。
參會者都一個態度:不懂大數據技術的人沒資格評論大數據,您要不懂 Hadoop 2.0 中的資源配置、不懂 Spark 在內存的駐留時間調優、不懂 Kafka 採集就別參加這個會!對了,最近 Google 完全拋棄 MR 只用 Dataflow 了,您懂嗎?不懂,滾!
在這裡我想說,技術的進步都是由業務驅動的。技術發展到什麼程度,只有一小部分是由科學家追求極致的精神驅動,大部分原因是因為業務發展到一定程度,要求技術必須做出進步才能達成目標。
所以,真正的大數據「圈內人」至少要包含以下幾種人:
一、業務人員
比如互聯網的產品經理要求技術人員,必須在用戶到達網站的時候就算出他今天的心情指數,而且要實現動態監測,這時候只能用 Storm 或者 Spark 來處理了;比如電信運營商要求做到實時營銷,用戶進入營業廳的時候,必須馬上推送短信給用戶,提示他本營業廳有一個特別適合他的相親對象(呈現身高、三圍、體重等指標),但是見面前要先購買 4G 手機;再比如病人來到銀行開戶,銀行了解到用戶最近 1 週曾經去醫院門診過 2 次,出國旅遊過 3 次,帶孩子游泳 2 次,馬上客戶經理就給客戶推薦相關的銀行保險與理財產品。這些業務人員,往往是驅動技術進步的核心原因。
二、架構師
架構師有多麼重要,當一個業務人員和一個工程師,一個說著業務語言,一個說著技術術語在那裡討論問題的時候,工程師往往想著用什麼樣的代碼能馬上讓他閉嘴,而架構師往往會跳出來說
「不,不能那樣,你這樣寫只能解決一個問題並且會製造後續的若干問題,按照我這個方案來,可以解決後續的問題!」
一個非技術企業的 IT 系統水平,往往有 70% 以上的標準掌握在架構設計人員手裡,儘管很多優秀的架構師都是從工程師慢慢發展學習而來的。IT 架構的重要性,很多企業都意識到了,這就是很多企業有 CTO 和 CIO 兩個職位,同樣重要!架構之美,當 IT 系統平穩運行的時候沒人能感受到,但是在一個煙囪林立、架構混亂的環境中走過的人眼中,IT 開發一定要架構先行,開發在後!
三、投資人
老闆,不用說了,老闆給你吃穿,你給老闆賣命,天生的基礎資料提供者,老闆說要有山便有了山,老闆說要做實時數據處理分析,便有了 Storm,老闆說要做開源,便有了 Hadoop,老闆還說要做資料探勘,便有了 Spark ……
四、科學家
他們是別人眼中的 Geek、他們是驅動世界技術進步的核心力量。
除了世界頂級的 IT 公司(往往世界技術方向掌握在他們手中),其他公司一般需要 1 至 2 個科學家足以。他們是真正投身於科學的人,不要讓他們去考慮業務場景、不要讓他們去考慮業務流程、不要讓他們去計算成本、不要讓他們去考慮項目進度。他們唯一需要考慮的就是如何在某個指標上擊敗對手,在某個指標上提高 0.1% 已經讓他們可以連續奮戰、不眠不休,讓我們都為這些科學家喝彩和歡呼吧。在中國,我認為真正的大數據科學家不超過百人 ……
五、工程師
工程師是這樣一群可愛的人,他們年輕、衝動、有理想,又被人尊稱為「屌絲」、「鍵盤黨」。他們孜孜不倦地為自己的理想而拼搏,每次自己取得一點點進步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感、自負,從來不屑於和業務人員去爭論。工程師和科學家的不同點在於,工程師需要頻繁改動代碼、頻繁測試程序、頻繁上線,但是最後的系統是由若干工程師的代碼組合起來的。
每個自負的工程師看到系統的歷史代碼都會鄙視地發出一聲「哼,這垃圾代碼」,之後便投入到被後人繼續鄙視的代碼編寫工作中去。
六、跟風者
他們的特點就是「炒」,和炒房者唯一不同的就是,他們不用付出金錢、他們認為只要和數據沾邊就叫大數據、他們有些人甚至從來沒碰過 IT 系統、他們是渾水摸魚、濫竽充數的高手、他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業炒的越兇,真正有價值的人就更能發揮自己的作用。
- 謬誤二:只有大數據才能拯救世界
大數據說白了就是還沒有進入真正的交易系統,沒有在 OLTP(Online Transaction system)方面做出太大的貢獻。至於很多文章把大數據和物聯網、泛在網、智慧城市都聯繫在一起,我認為大數據不過是條件之一,其餘的 OLTP 系統是否具備,物理網路甚至組織架構都是重要因素。
最後還想說,大數據處理技術,再炫如 Google 的 Dataflow 或成熟如 Hadoop 2.0、數據倉庫、Storm 等,本質上都是數據加工工具。對於很多工程師來說,只需要把數據處理流程搞清楚就可以了,在這個平台上可以用固定的模版和腳本進行數據加工已經足夠。畢竟數據的價值 70% 以上是對業務應用而言的,一個炫詞對於業務如果沒有幫助,終將只是屠龍之術。任何技術、IT 架構都要符合業務規劃、符合業務發展的要求,否則技術只會妨礙業務和生產力的發展。
隨著時代變遷,大浪淘沙,作為數據行業的一員,我們每個人都在不同的角色之間轉換,今天你可能是科學家、明天就會變成架構師;今天的工程師也會變成幾年後的科學家,部分人還終將步入跟風者的行列。
(轉載自合作媒體虎嗅網;圖片來源:Wiki, CC Lincesed)
Source: techorange.com