《Disney +》 迪士尼、Marvel、彼思、星球大戰…  Neo Geo Pokect名作「SNK對卡普空 千年之戰」於Nintendo Switch開放下載!   《垂死之光2 堅守人性》:看跑酷與創意戰鬥如何點燃精采動作   隆重介紹 Evo 社群系列賽 PlayStation 4 賽事   《Final Fantasy VII Remake Intergrade》:7大提示和訣竅教你得心應手扮演尤菲‧如月   「任天堂直面會」將於日本時間2月18日早上7點起進行直播!並且有大約50分鐘的豐富內容!   《RESIDENT EVIL VILLAGE》榮獲PlayStation®Partner Awards 2021日本及亞洲地區大獎   《地平線 西域禁地》實體版2021年12月14日起接受預訂   龍族拼圖與《勇者鬥惡龍 達伊的大冒險》首次合作即將登場! 

物聯網萬物合一後,我們身上最有價值的流動不只是血液還有「大數據」

商業

本文摘自阿里巴巴集團副總裁、數據委員會會長車品覺的新書《決戰大數據》中的一章。本章著重探討了大數據與商業決策之間的關系、乃至處理步驟。

今天,我們正處於決策成本產生巨變的爆發點,過去那些想盡辦法都無法獲取的數據,在今天唾手可得,而當有些表面上完全不相關的行業數據關聯起來時,居然產生了新的商業價值。更重要的是,過去,我們更多地是帶著問題去尋找能夠驗證自己觀點的數據,而今天我們卻可以使用數據去預測可能出現的問題。

大數據可以使人的智慧得到更大的發揮,並變得更加規模化。但大數據的本質是人,數據研究的極點就是莫測的人性。我們一旦掌控了數據之後的數據,就會擁有制勝未來商業的無敵利器。

  • 找出有價值的數據前,先假定數據是髒的

在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源髒了,還是因為數據提煉過程做得不好?

美國有一家新創公司,專注於與地理位置相關的數據收集、整理和查詢服務。它將地理位置的相關指標,按照酒店和旅館等屬性劃分為不同細類,對外提供基於位置信息的實時查詢,為包括美國最大點評網 Yelp 在內的多個知名應用提供底層數據服務。

這家公司最令人印象深刻的是,它對於所收集來的數據會提供一個數據質量評分,以反映數據的可信度和質量水平。它會對這些數據的源頭以及對處理數據階段所用的算法進行評分。也就是說,這家公司在提煉數據的每一個階段都進行了數據化管理。

這家公司的做法讓我們看到了一個趨勢,也是一個非常重要的趨勢。因為它首先已經接受了數據源肯定是髒的和數據源一定會被污染的事實。所以,它在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源髒了,還是因為數據提煉過程做得不好?這個過程我們一定要區分,而且這樣的區分是可取的。這家公司是假定數據是「髒」的來做數據管理,而不是假定數據是穩定的。而且,假定數據是「髒」的來處理數據,在大數據時代將是一個非常重要的趨勢。

事實上,我們今天在處理的大數據,依然只是冰山一角,而更大的數據都隱藏在我們的語言中,比如我們說的話和寫的字。所以,將來我們要準確地從互動中抓取數據,也一定要依賴對自然語言的處理。現在,美國的很多數據研究人員都在瞄準非結構性數據,即語言處理這一領域。

  • 學會慢慢淡化數據,找出對用戶最有價值的

數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以,我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據。

想要確定數據的優先值,就要先解決以下幾個問題。一是數據的標準化。在大數據時代,我們需要一個標準化的東西供我們進行交流。二是我們到底如何對接和交換數據,如何在交換的時候保持數據的穩定性。比如自然語言,比如在無線和 PC 不同場景下受到的影響,這些情況都會滋生出許多新問題。

第三個重要的問題是數據的儲存,這將涉及數據的時效性這一問題。有人曾經提出過一個很有價值的觀點,即現實中,網站最大的場景變化就是網站改版。因為重新設計網站,本身就影響數據,比如公司的詳情頁和首頁,任何改變都在影響數據。如果在 1 ~ 3 年後,你才說得出數據的這一改變是由於促銷、用戶行為或是改版引起的,那這一數據就已經沒有任何價值了,這就是數據的時效性。

所以,美國出現了一個概念叫數據淡化( Data Decay),意思很明顯,數據會慢慢淡化。我們要更清楚地認識到,數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據,這是一個非常重要的趨勢。

  • 數據後的數據:數據的標籤化管理

數據的屬性標籤是人類經驗判斷的數據,是數據後的數據。

數據的屬性標籤是人類經驗判斷的數據,是數據後的數據。例如,當你要為一件物品打上標籤時,其實就已經動用了你的經驗數據分析,並進行了歸納總結,結合當下的環境給出了判斷。如果沒有考慮環境的影響及準確性的評估,這種經驗加上直覺的判斷是不穩定且又難以解釋的。但從數據收集的角度去看,數據的屬性標簽又是一個潛力極大的數據。

在數據屬性的管理上,對於用戶來說,每個人身上貼的標籤都是多種多樣的,但是對於企業來說,如何將這些標籤歸一,如何用一個點去將之串聯,又如何把這些點連起來去描述這個用戶,這才是核心問題

比如說,你要去應徵一家公司, A 公司對你的評價是「很可靠」, B 公司對你的評價是「不可靠」,而 C 公司準備雇用你,然後 C 公司看到了 A 公司和 B 公司給你貼的兩個標籤:「可靠和不可靠」,它就會困惑。

這樣的問題常常發生,那麼,我們要怎麼去做標籤的管理呢?

首先,我們要明確的是,「可靠」這個概念是沒有標準化意義的,除非在定義標籤之前,我們就界定清楚這個「可靠」的標準是什麼。否則,「可靠」的標準是準時還錢、說話算數,還是他向來都很守時,我們就無從得知了。如果這些標准是「可靠」,就給予了我們一種可以還原數據的能力。所以,在屬性管理中,假如屬性是「×」,那麼我們一定要定義清楚什麼是「×」,在沒有清楚定義的情況下,這個數據的屬性是毫無價值的,而且,將來你也依然不知道怎麼使用這一數據。

標籤在觀察之後加進平台和直接加進去是不一樣的。在電商平台中,就有一些標籤是在觀察後加進去的,如果由賣家自由地加標籤進去,必然會造成混亂。所以,標籤的屬性管理,在運營數據中非常重要。

標籤化管理,是一個非常重要的趨勢。電商企業今天面對的一些問題在美國的電商企業中同樣存在,可見,我們發現的問題,別人也在面對,不過這些問題並不需要現在就去解決。

屬性管理的層級化十分有必要,但是在使用數據前,必須要了解數據的場景、數據是如何放進去的和數據的場景是什麼。在這一切未知之前,就說數據如何好用的話,是不可能的。所以,現在企業運營數據的趨勢是,我們應該找出一些屬性進行歸類,然後再慢慢地考慮如何提煉,這對於未來非常重要。

  • 重要的是數據和數據之間的關係,而不是數據本身

大數據價值的實現,在於數據與數據的連接。

Google 做了一件非常驚人的事情 —— Google 甚至能在不明白某個網頁語言的情況下,知道其內容是什麼。試想一下,如果你懂俄語,看出俄語網頁裡在講什麼當然很簡單。但是,如果你僅僅通過看字詞的排列和網站的分類,就知道網頁的內容,這是不是很令人驚嘆?

這就是知識圖譜,它是一個無窮無盡的世界。事實上,知識圖譜並不是數據,而是數據和數據之間的關係。但這裡有一個非常大的弊端,就是數據的儲藏量非常大、儲存的方法也很復雜,且稍微改變一點點關系的定義,整體就會產生巨大的變化。

比如說,有一個知識圖譜在說電商平台用戶之間的關系,那數據訊息就非常龐大了。試想一下,今天電商平台裡有多少個用戶跟你有關係?假如說有 25 個人,那麼 25 個人的關係就演變成了 25×25 條關係。這時候,我再問你「什麼是關係」、「見過就算關係,還是一起買過東西叫關係」的問題就具備了一定的難度。

關係建立的維度是無限大的,而且定義稍微改變一下,整個存儲和整個數據庫都會發生變化。所以,知識圖譜的把控是有難度的。舉個貼近我們生活的例子,比如說銀行很早之前就給你開辦了信用卡,決定銀行這一決策的不是你的個人關係而是總關係。銀行決定是否貸款給你,是要看你愛人做什麼職業以及你家中其他人的經濟情況如何。當這種種關係關聯起來時,就會產生一個極為重要的知識圖譜。

以往我們談大數據時候的本錢,莫過於「我有這種數據,你沒有」。在未來,數據和數據之間的關係才是重中之重,而不是單純的數據本身。

  • 數據的處理也有輕重緩急

我們千萬不要把所有的能力都用來處理實時化的問題,因為我們依然會有大量的數據需要在恰當的時機(Right Time)處理,有的數據是重要的,但不緊急。

以上講到的很多內容都是關於數據收集和管理層面的,而在數據的處理上,我在 LinkedIn 上看到了一個很有趣且有價值的做法。 LinkedIn 在處理數據時,會把公司的數據服務分為幾層,一方面是緊迫度,另一方面是重要不重要。比如,它會把數據分為「快數據緊急」、「快數據不緊急」和「慢數據重要」等。

我覺得對數據實時性分層的做法是合理的,而有人覺得數據的實時化處理是趨勢,但是我持有一定的懷疑態度。 Real Time 是「實時」,Right Time 是「恰當的時機」。但是,據我看來,數據處理不一定要實時。比如,我們常見的情況是,每家公司都有財務的相關數據,這類數據的處理都是「T+1」,意思是你想要的數據在第二天才可以拿到。因為在其他數據沒有到位的情況下,數據實時化的價值也不大。

但是,換個場景來看,銀行若要判斷某個人的信用卡是否被盜用,那麼肯定要對之進行實時化處理。數據的實時化,讓我們從商業的角度去認知數據,值得注意的是,在具備了實時化的數據處理能力後,很多以前不能解決的場景開始變得能夠解決。在未來的某一天,編碼的工程師能夠在編碼時直接寫上“如果一個三天前只瀏覽未購買的客戶回來了,我要不要給他一個兩元錢的紅包”。這個程序是完全編好的,用戶登錄本身就成了一個實時標簽,快速的運算會讓每個網站都具備最強的時效性。

我們再換一個角度來思考,如今手機、電視、遊戲機和 PC 等多螢幕運作的時代下,作為一個網站,有多大的能力在非常快速的情況下,讓自身在非常小的時間點裡抓住消費者,賣出產品,這種實時的能力會在未來的商業中變得越來越重要。

一個網站必須要讓自己的實時能力更高,甚至用戶接下來的每一步你都應該猜到,但我們千萬不要把所有的能力都用在處理實時化上,因為依然會有大量的數據需要在恰當的時機( Right Time)處理,有的數據是重要的,但不緊急。

  • 人機結合或人和數據的結合是未來數據更進步的模式

很多人會問,大數據目前發展到什麼階段了?

我的答案是 —— 水分太多的階段。但毋庸置疑,大數據已經極大地影響了我們的社會,但還遠遠沒有達到它的爆發點。因為有了大數據,人的經驗開始和數據結合,兩者相互激活,讓人的智慧得到了規模化地放大,這也使得整個社會開始伴隨著數據的發展產生巨大的改變。但是,在大數據的使用上,未來的發展空間注定會比現在取得的成績更加宏大,「數據化運營」和「運營數據」這個數據與人之間的閉環系統也會越來越完善,人機結合仍然有巨大的空間讓我們去挖掘。

未來,數據的種類將超出我們的想像。

以前的數據更多集中在外部行為的監控上,不論是網絡購買行為,還是網上社交行為,都是用戶在「遠距離」提供數據,即便這樣,我們仍然還沒有運用好這些數據。隨著可穿戴式設備的出現,數據和人將真正融為一體,類似 Google 眼鏡這樣的設備,將讓我們看到的東西即時數據化;類似健康手環類設備和可以深度收集腦電波數據的設備,將隨時會使我們人體的活動轉化成數據。目前,記錄睡眠狀況只是其初步的應用,在不遠的未來,用數據記錄我們每一秒鐘的生活也將成為可能。

當萬物皆數據的時刻到來時,商業發展的更多新機會將會出現,數據將會幫助我們更好地做出判斷,比如,什麼時候最適合吃飯、什麼時候身體疲憊適合睡覺和什麼時候記憶力最好等,這些都能通過數據來進行預判。甚至於,當記錄了人的足夠數據之後,數據就可能告訴我們此時此刻應該做些什麼及最佳的策略。也許在那時,決定人是否聰明的指標,已經不是 IQ,而是是否擁有足夠優質的數據。

人和機器的結合,或者人和數據的結合將是未來的一種進步模式,人類將通過數據變得更加智能。

最後我想用兩句話來總結:

當下,我們要學會人機分工,讓人做人最擅長的事情,讓機器做機器最擅長的事情。
未來,我們要相信人機結合,人機的界線已經模糊,無人駕駛汽車已經變成可能。未來人類的身上流動著的是血液以及數據。

延伸閱讀:

你可以在色情行業裡,挖到了什麼驚人的「秘密大數據」?

台灣一堆人搶搭 Big Data 列車,卻根本不管車子是否到的了目的地

(轉載自合作媒體《虎嗅網》)

「有很多數據,我們只能叫它有大量的數據,而不是大數據。」

你必須對持有的數據充分挖掘才能稱得上是大數據。但,究竟要怎麼管理和分析,才能將有限的資源發揮到極致,強化企業競爭力?

現在就報名 6/3(二)的 Computex「Big Data 論壇」,快速掌握全球 Big Data 趨勢動態!免費報名網址:http://goo.gl/cG1iz8

Source: techorange.com

隨機商業新聞

Disney+