Q:什么叫數(shù)據(jù)?
好多年前,我們認為數(shù)字才叫數(shù)據(jù)。什么叫數(shù)字?至少支持一種代數(shù)運算的才叫數(shù)字。到現(xiàn)在我們的概念全變了??赡苊恳粋€人對數(shù)據(jù)的定義都非常不一樣,有人會說數(shù)據(jù)是信息,我覺得太抽象了。直白地說,什么是數(shù)據(jù)——凡是可以記錄的都是數(shù)據(jù)。但是記錄不下來的,這個時刻不是數(shù)據(jù),也許未來是。以前聲音不是數(shù)據(jù),現(xiàn)在聲音也是數(shù)據(jù),圖像是數(shù)據(jù),中文文本也是數(shù)據(jù)。目前移動互聯(lián)網(wǎng)時代我簡單的把數(shù)據(jù)歸類為文本,位置和網(wǎng)絡結(jié)構(gòu)三種。
Q:網(wǎng)絡結(jié)構(gòu)給我們數(shù)據(jù)分析帶來了什么樣的機會和挑戰(zhàn)?
以前我們對人的分析基于個體。比如說營銷中,為了理解消費者,我們會做市場細分,消費者是非常個性化的,千人千面。這時候怎么分析呢?張三的性別,年齡,過去買多少產(chǎn)品,全是他一個人的信息?,F(xiàn)在在任何一個電子商務網(wǎng)站上都能看見推薦,推薦做的最成功的是亞馬遜,它會根據(jù)你過去的購買行為進行推薦。買了A這本書的人會不會買B這本書??茨氵^去買什么,再推送你將來會買的商品。
我跟大家講一個真實的故事,我認識的一個博士后,畢業(yè)之后面對消費者做小微信貸。小微信貸是,比如我到蘇寧電器看產(chǎn)品,很喜歡,但是發(fā)現(xiàn)差兩千塊錢,售貨員就說說分期付款找小微信貸。然后我就跟做小微信貸的人說我要借兩千塊錢,但是什么都不想押,填張表就給我兩千。他們會根據(jù)我的職業(yè)教育和其他各種信息,對我的還款能力做評分,20分鐘決定給不給錢。這個風險是無比巨大的,這么大的風險大部分銀行都不愿意做,但是民營企業(yè)愿意做。這個事特別的好玩,很多年前我們叫高利貸,現(xiàn)在叫金融創(chuàng)新。小微信貸要評估的是他的支付能力,支付能力填表很容易做假,如果有微博帳號,知道他去哪里,就知道他的真假了。所以位置數(shù)據(jù)也很重要。
Q:在網(wǎng)絡上如何獲取個人信息?
在網(wǎng)絡上,我們會通過人的標簽增加對人的認識?;蛘哂幸粋€渠道,通過朋友的信息,知道哪些是正確的,哪些是錯誤的。這里我們可以把它變成非常有意義的統(tǒng)計圈,讓用戶愉悅體驗的產(chǎn)品。數(shù)學模型上可以簡化成什么樣的結(jié)構(gòu)?我定義我自己叫I,我關(guān)注的統(tǒng)計之都是Z,標識我關(guān)注統(tǒng)計之都,統(tǒng)計之都也關(guān)注我,這樣就可以進行分析了。我們把標簽存儲下來,這就是分析的結(jié)果。有人說在互聯(lián)網(wǎng)上,你只要在電腦屏幕前面,互聯(lián)網(wǎng)另外一端不知道你是誰。現(xiàn)在全變了,你在這里,后面還有人看著你,你的一切他都知道。
再比如微博頁面,原來推薦的廣告是電子游戲。后來淘寶購買了微博18%的股份,很快就發(fā)生了一個變化,你在淘寶搜過什么東西,在微博就看到什么廣告,這是單向的,還沒有出現(xiàn)微博討論什么,淘寶就有什么。
Q:位置數(shù)據(jù)為什么很重要?
在互聯(lián)網(wǎng)上第一批通過數(shù)據(jù)分析獲得商業(yè)價值的都是電商。電商要求搜索購買交易行為全部在線上完成,典型的是3C產(chǎn)品、書等各種各樣的商品。電商只是一部分行業(yè),但還有很多服務行業(yè)是不能線上消費的,線上購買也很難。比如說培訓,培訓可以在網(wǎng)上購買,一般的就兩萬塊錢,但是更多的人覺得,我們家孩子上英語班,還是先看看老師長什么樣子,不能交了錢,人都不知道是誰。其他還有餐館、酒店、旅游等,所有這些行業(yè)都有一個特點,需要完成線上行為和線下行為的打通。在線上了解一家培訓機構(gòu)的資質(zhì),線下再去接觸;線上通過團購網(wǎng)站尋找一款美食,線下餐廳去完成消費。這個過程當中,位置信息就變得非常的重要。
Q:知道地理位置以后做什么呢?
現(xiàn)在我給大家介紹一個我們做過的案例。我們想知道來頤和園玩的游客,他們都來自于哪里,他們在北京去什么地方,他們?nèi)绾蜗M等等。
因為頤和園和圓明園的門票不貴,可能在這里玩完去CBD去住。但是不同區(qū)的領(lǐng)導是有競爭的,領(lǐng)導是希望你吃、玩、住都在我這個區(qū)的,這時候就需要采集游客的位置信息了。但是我無法采集到所有人的數(shù)據(jù),線下在圓明園讓游客做一千份問卷也不太容易,所以我們就用微博簽到的數(shù)據(jù),雖然這不是所有用戶的數(shù)據(jù)。通過研究數(shù)據(jù)發(fā)現(xiàn),首先到北京來的外地游客,在海淀區(qū)游玩的大部分在圓明園和頤和園轉(zhuǎn)。我們能看到來頤和園、圓明園玩過的游客逛過的各個地方的最重要的旅游景點。海淀區(qū)有頤和園、圓明園、北京大學,朝陽區(qū)有鳥巢、國家體育館、奧林匹克公園等等,東城區(qū)有王府井小街、南鑼古巷和簋街。但是海淀就沒有這些出名的商業(yè)街和小吃街了。所以這些來海淀區(qū)去頤和園、圓明園玩的人,他們吃飯都到東城區(qū)了。雖然這些人購物也發(fā)生在海淀區(qū),但是東城區(qū)依然是強有力的競爭對手。
我們得到的位置信息可以精確到一個樓。所以如果你用心去做,就能通過簡單的位置軌跡看到這個人的吃穿住行——是從機場來的,還是高速公路上的收費站來的,還是從火車站來的?是在什么樣級別的餐廳吃飯?你只要得到餐廳的名字,就能推出他的消費能力。通過他住宿的酒店也可以看到住宿的經(jīng)濟能力。通過這個可以知道一個人的吃穿住行。
舉個例子:如果我是國航的銷售,一個客戶今年在我這兒訂過一張機票,現(xiàn)在的問題是要確定他是不是高端用戶,如果是高端用戶我應該想辦法把他拉進來。但是我只看到他在我這里買一張機票,所以無法確定。這時候如果可以得到他的位置信息,比如他每周都在每個機場轉(zhuǎn)一下,我就能知道他買了不少機票,但是機票都跑別家去了。將文本、網(wǎng)絡結(jié)構(gòu)和地理位置這三種數(shù)據(jù)整合在一起,我們就可以分析出很多有價值的東西。但是無論是國內(nèi)還是國外我們的分析手段還是遠遠滯后的,滯后的不是技術(shù)方法,更多的是對商業(yè)的理解。什么樣的數(shù)據(jù)支持我們什么樣的商業(yè)模式,或者對現(xiàn)存的商業(yè)模式有什么改變。
Q:怎樣把管理和實踐的問題歸結(jié)成數(shù)據(jù)問題,然后把問題解決掉?
第一階段首先是數(shù)據(jù)的生產(chǎn)、采集、整理。第二,有了數(shù)據(jù)以后,就要定義和數(shù)據(jù)相關(guān)的業(yè)務問題。比如車聯(lián)網(wǎng),我要定義業(yè)務問題,是具有什么駕駛習慣的人容易出事;喜歡逛什么地點的人支付意愿高。這也是業(yè)務問題,定義出來才能分析。第三是數(shù)據(jù)挖掘與統(tǒng)計建模。最后是數(shù)據(jù)業(yè)務的實施。當你有了業(yè)務分析結(jié)果的時候,你不可能通過統(tǒng)計學語言來表達,你要會表達故事,表達成人們可以懂的語言,比如營銷策略和圖表。這4個里面相對比較容易的是統(tǒng)計建模。最難的則是第二個,因為無章可學,沒有任何一個老師和教科書可以回答你。只能跟最優(yōu)秀的人在一起,跟他們一起探討,互相學習。我特別享受的是,在我的課上每到一個學期結(jié)束的時候,聽同學們匯報案例,我們都互相非常欣賞。有人是做醫(yī)藥行業(yè)的,有人自己創(chuàng)業(yè),不一定每個人都給出最完美的答案,但是都能體會你的痛苦。對無法完美解決的問題,只要有更多優(yōu)秀的人在一起,我們一起研究思考,就可以把它歸結(jié)出來,找到最好的解決辦法。