NAVER 併購 Gogolook 團隊的價格終於曝光:5.29 億台幣,比原本市場推測的 3 億台幣要高出許多。Gogolook 怎麼用 10 個人的團隊,累積出這麼高的價值? Data 分析絕對是其中一個重要因素。
中研院資訊科學研究所的研究員陳昇瑋是台灣少數專注在發展資料科學研究實務技術的專家之一,很早就與 Gogolook 團隊合作分析 Call Pattern,《Techorange》在併購案發佈之前專訪陳昇瑋,從 Gogolook 的合作研究案為例,談資料科學家的養成。
陳昇瑋在接受時分析,Big Data 很熱門,很多企業主想要發展資料分析,但當他們開始想要做這件事時,卻發現 ── 找不到資料科學家。不過,真正的問題,可能不是沒有這種人才,而是企業根本沒有識別這種人才的能力。企業主太過於專注在「Big」的迷思上,忘了重點在「Data」。軟體技術的快速演進,讓資料分析的範疇擴大到連海量型的資料規模我們都可以掌握,但很多人都忽略,這同時也意味著,在中型規模的資料分析上,軟體技術實現了更廣也更深的分析可能性。
Big Data 指的是所涉及的資料具有 Volume(量大)、Velocity(進入和處理速度快)、Variety(變化大)這三個特性。 若要以量來定義,有一說法是,Big Data 至少要在數十 TB(Terabyte)到數 PB (Petabyte)之間,拿全世界最大的網路公司 Google 來看吧,Google 為了處理一個月號稱 900 億筆之多的網路搜尋,每月處理要 600 PB(petabyte)的資料量。所以如果要嚴格定義,能夠做 「Big」級資料分析的案例並不多,在台灣,實務上或收集到這個規模資料量的服務更少。
「事實是,除非你像 Google 那樣,才有所謂的 Big Data,所以我都只說是『資料分析』,而不是『Big Data』分析。」陳昇瑋說,資料分析並不用到 Big Data 才能做到,資料分析的歷史不是現在才開始, 想要運用資料分析創造更高的商業附加價值,應該要先問要分析什麼資料,有了清楚的目標,就可以推演出需要的人才特質,這就會發現,資料科學家其實早就存在,差別只在是否能夠以創新的作法利用資料、分析資料而已。
陳昇瑋以他與業界合作的兩個資料分析案例,說明資料科學家的特質。
- 案例一:與 whoscall 合作,在一千萬通電話中找出行銷電話 Call Pattern!
台灣新創公司 Gogolook 以 5.29 億台幣的價格賣給韓國最大的網路服務公司 NAVER ,就是因為這個團隊擁有珍貴的資料分析技術價值,陳昇瑋很早就與 Gogolook 團隊合作,研究詐騙電話的行為模式。
Gogolook 的主力產品為來電辨識與號碼管理服務 whoscall,當電話響起時,whoscall 能即時顯示來電者的身分,並警示該來電可能是行銷電話、騷擾電話,也能過濾掉拒接的來電。
這個連 Google 執行董事長都稱許的來電辨識功能,靠的是在網路上即時搜尋,以及 500 萬用戶的回報。但若網路上搜不到、還沒有用戶回報,就無從判斷這通電話可能的身分、是不是惡意電話。
陳昇瑋喜歡 whoscall 的社會貢獻,卻又不滿意它的未盡之處,於是主動找上 whoscall 合作,他們要做的是,在一支電話號碼撥給 whoscall 用戶時,根據這支電話號碼的過去行為,判斷它是不是惡意電話。
他們利用當時 whoscall 的 400 萬用戶,每天約 1000 萬通通話的資料量,找出惡意電話的發話頻率、發話對象、鈴響時間、通話模式,也就是「Call Pattern」。
運用 1000 萬比資料量,透過軟體技術的協助和社會心理學的研究支援,陳昇瑋和 whoscall 產品團隊很快就有了有趣的發現。
根據他們的研究,一般正常使用的電話,每天發話、接電話的頻率大概是 1 至 2 通,且通常有特定通話對象;行銷電話每天發話的頻率在 10 通以上、發話相隔時間短、對象都不相同,且僅限於周一到周五電話行銷專員有上班的日子才有發話記錄,至於少有的來電則被判讀為受話端因為漏接而回撥的來電。(見下圖)
此外,一般正常使用的電話,每通電話平均的通話時數約在 1 分 12 秒;但詐騙電話(Fraud Numbers)的平均通話時數 30 秒不到,行銷電話(Marketing Numbers)的平均通話時數 36 秒不到,顯然是被接起之後立刻就被掛斷。(見下圖)
這些資料分析結果有什麼用?找出 Call Pattern 之後,whoscall 在一通電話之間判斷其是否為惡意電話的準確度高達 93%,在兩通電話後,判斷的準確率則提升至 96%。就因為如此精準的惡意電話辨識,whoscall 能在各家來電辯識服務中建立了不可取代性,商業價值也因此大幅提升。
以這個案例來看,資料量比較多,分析的複雜度較高、分工較細,所以 Gogolook 在組建的,是一個資料科學家的團隊。這個團隊的特質是什麼?以下是 Gogolook 的資料分析團隊職缺描述:
薪資範圍:60,000~ 90,000
必要條件:熱情、熱情、熱情
加分條作:
-Solid stats background (familiar with various descriptive data analysis tools and hypothesis testing methods)
扎實的統計背景 (至少熟悉各式敘述統計及統計檢定方法)-Experience studying online user behavior (on top of exploratory/descriptive data analysis)
曾有線上使用者行為資料的統計分析經驗-Familiar with R language (capable of writing custom R functions when there is no built-in support in R)
熟悉 R 語言 (R 不支援的繪圖函式,也可以自己撰寫)-Familiar with Python, PHP, or any other scripting language (our goal is to standardize our data analysis toolchain)
熟悉 Python、PHP,或任一種 scripting langauge (我們的目標是要標準化我們的資料分析流程)
-Familiar with NoSQL system
熟悉 NoSQL 語言
從這個職缺描述大概可以看出資料科學團隊的職能範疇:最重要的是統計學的深厚素養,以及所要分析目標範疇的理解,例如 whoscall 是以電話和網路使用者的行為為主,Gogolook 在找人的時候,就會特別強調對線上使用者行為的熟悉度與分析經驗。最後,才是很多人關心的程式語言能力。
如果分析的資料範疇較廣,建立資料分析團隊的過程中,最難的其實是發展一個組織「合作」的工作流程,團隊之間一定要不停的嘗試,找出可行的工作方式。
這三個範疇的能力,是否有可能集中在一個人身上,單兵作戰也能做出有價值的分析結果來?答案是:當然有可能!
- 案例二:從 3000 筆資料中,找出人們的惻隱之心會受什麼影響
陳昇瑋自己就是一個能夠單兵作戰的資料分析專家。
他以「蘋果日報慈善基金會」在網路上現有的公開資料著手,也找出有趣的分析結果。
陳昇瑋近來對「社會有貢獻」的題目深感興趣,但在沒有刻意設定什麼題目、尋找什麼資料的情況下,某天不經意在《蘋果日報》看到到每日一則需要援助的個案報導、以及在一個月內開放大眾捐款給該個案的蘋果日報慈善基金會,他驚呼:「全世界沒看過這麼棒的資料設定的資料!」
大部分基金會並非針對特定案例做個別捐贈,然而在蘋果日報基金會的網站上,可以取得「受援助個案的描述 ── 因」、「獲得的捐款金額 ── 果」的公開資料。
只要分析基金會裡頭累積的 3000 多筆個案記錄,就可以得知哪一類型的個案得到較多的捐款,或者文字功力、圖片的多寡、標題會不會是否也能影響捐款意願和捐款金額。
最後他發現,若個案中有「年幼少女」,其獲得的捐款會比較多;若摻有「賭博」因素,則獲得的捐款會低一些。另外,也是最有趣的一個研究結果是,很明顯地,三位固定負責這個專欄報導的記者中,其中一位所寫的個案,獲得的捐款金額明顯高於其他人,可見,寫故事的人對於捐款結果,佔據重要影響力。
陳昇瑋說,這項研究有三個目的,第一,找出人們的惻隱之心會受到哪些因素影響;第二,量化寫作、標題、圖片在挑起人們惻隱之心時佔了多少作用;第三點也是最重要的一點,如果在募款時把所有待援助案例都塞到一個人眼前,很可能會使他感到厭煩,但若能結合每個人的檔案,判斷他會對哪類型的待援個案有感覺、什麼時候會比較有感覺,並在對的時候推播對的內容給他,就能增加大眾對社會底層的關懷,進而起身行動。
- 要具備什麼條件,才符合「資料科學家」這個職位?
資料科學家的三個能力範疇:統計、程式、該領域的知識,要找到同時兼顧這三個職能的人並不容易,但如果從擁有單一或兩個職能的人才開始訓練,培訓第三個職能,並不難。不需要三個都很專精,統計一點點,中統就夠用;程式一點點,會寫學統計時用到的自由軟體程式語言 R 語言、或者商用軟體 S-PLUS 就行,陳昇瑋說,「其實最重要的是對那個領域有認知並且有滿滿的熱情。」
不要求樣樣專精,陳昇瑋說,「職缺開出來,你會發現,具有潛力的人其實不少。」
陳昇瑋以他自己為例,大學、碩士時讀的是資訊工程,博士時讀的是電機工程,統計甚至是在研究所時期自修的。這樣說來,這類型的人早就有了,只是學統計的人跑進金融界當分析師,學工程的跑去科技業當工程師,他們被既定的職位綁住了,以至於沒有像陳昇瑋這樣的資料科學家,會去解決各個領域中新出現的問題。所以他會才說,「職缺開出來,符合這個職缺的人就會出現了。」
- 如果你已經想徵求資料科學家了,還要先想想:薪水和心態給不給得起
看到這邊,如果你已經下定決心要開始貼徵人啟事,徵求「資料科學家」,那陳昇瑋也要點出一個聘用資料科學家時,業者該有的心理建設。
首先,這個職務的薪水不可能太低,因為沒有人能跟他說這件事該怎麼做,就算老闆懂,老闆也無法預期的結果是什麼,不知道這個問題解下去會變怎麼樣,甚至連最後能不能成功都不得而知。
再來,老闆要給這個人很大的權限和信任,不能用管理一般員工的方法管理他。要讓他能像國外 Research Lab 裡的研究員一樣,每天四處廳演講、四處參加研討會。
目前國內還沒有這種文化,但資料分析在統計與預測鬼才、《精準預測:如何從巨量雜訊中,看出重要的訊息?》一書的作者 Nate Silver 眼裡,不只是門科學,還是門藝術。如果資料分析是門藝術,你怎麼能要求藝術家朝九晚五的做在辦公室裡創作呢?
- 延伸閱讀:
為什麼 NAVER 砸 3 億買台灣團隊 Gogolook?《TO》專訪創辦人郭建甫談 Gogolook 的專注與優勢
(圖片來源:陳昇瑋提供)
Source: techorange.com