智能水平由數(shù)據(jù)能力決定
張靖笙
關(guān)于智力是先天具足還是后天習(xí)得的爭論自古就有,放到人工智能就演化成設(shè)計派和學(xué)習(xí)派兩個學(xué)術(shù)方向。我在上世紀(jì)九十年代末開始從事商業(yè)智能方面的數(shù)據(jù)應(yīng)用開發(fā),我那時毫無疑問是屬于設(shè)計派,今天我卻是不折不扣的學(xué)習(xí)派。
在我十多年的商業(yè)智能項目工作中,我認(rèn)為技術(shù)上做到最高水平的是十多年前在澳門某本地銀行總行數(shù)據(jù)倉庫項目上做的單一授信戶風(fēng)險查詢分析與預(yù)警應(yīng)用程序,這個應(yīng)用源自一個非常復(fù)雜而且后來不斷加深難度的業(yè)務(wù)需求。我當(dāng)年還是一個代碼為王的直男碼農(nóng),不喜歡也不善于寫文檔,可后來這個需求的文檔也累積成近百頁的word文件,而這些文字陳述的也僅僅是需求的幾分乃至于十分之一,其他很難言傳的細(xì)節(jié)只能體現(xiàn)在程序代碼里,而這些代碼又是邊聽需求邊分析、邊開發(fā)、邊調(diào)試、邊修正這樣形成的,當(dāng)然關(guān)于這個應(yīng)用的需求和解決方案最后只停留在我一個人的頭腦里面,我當(dāng)時也沒有足夠的理論水平予以建構(gòu),后來做完了也沒有總結(jié)的動力,很多寶貴的設(shè)計細(xì)節(jié)隨時間流逝遺忘了,甚至今天我自己再看這些文檔和代碼都有些搞不清楚其中的玄機了。
簡單描述一下,通過這個程序幾乎可以遍歷到當(dāng)時澳門常住人口一半以上的各種融資擔(dān)保社會關(guān)系,全量數(shù)據(jù)每跑一次都要花上若干小時才能出結(jié)果,是的,這背后的算法就近乎于是一個社會金融關(guān)系關(guān)聯(lián)分析的數(shù)據(jù)挖掘算法。這個程序連實際數(shù)據(jù)試運行和優(yōu)化做了大概一年多時間左右,開發(fā)成果客戶是滿意的,他們根據(jù)這個程序的數(shù)據(jù)輸出報告專門成立了一個全行級信貸數(shù)據(jù)風(fēng)險分析委員會,直接影響到對其每一筆授信和信貸業(yè)務(wù)的審批決策。
但我今天回憶起來,卻對自己在這個項目的表現(xiàn)有些不滿意,也覺得很可惜,浪費了一次非常寶貴的實戰(zhàn)突破機會。這個項目的數(shù)據(jù)應(yīng)用深度完全是由客戶需求提出人、該總行信貸業(yè)務(wù)負(fù)責(zé)人何高理高超的業(yè)務(wù)水平?jīng)Q定的,當(dāng)年我沒有咨詢顧問的功力,實際上就是根據(jù)何高理的需求,學(xué)習(xí)消化何高理的業(yè)務(wù)和思路之后把加工數(shù)據(jù)的計算機程序編寫出來,除此之外我并沒有更多的創(chuàng)造和賦能。
換句話說,我的當(dāng)年和眾多的程序員是一樣的,我們的應(yīng)用開發(fā)高度完全取決于需求提出者的業(yè)務(wù)水平和數(shù)據(jù)理解,我做過的商業(yè)智能項目中,除了澳門大豐、銀監(jiān)會、華為、廣汽本田這些甲方有數(shù)據(jù)能力和理解水平很高的需求提出人員,其余大部分的商業(yè)智能應(yīng)用水平也就是簡單查詢和報表開發(fā),數(shù)據(jù)智能水平其實很低下或者說初級。
我后來為什么皈依了學(xué)習(xí)派,也是因為我在實際工作中逐漸感悟到了設(shè)計的巨大瓶頸和局限。我不能抱怨我過去客戶的需求水平,歸根到底還是我當(dāng)時缺乏人工智能學(xué)習(xí)派的理論水平和從事數(shù)字化戰(zhàn)略咨詢工作以后的顧問功力,要不我過去曾面對這么多寶貴的數(shù)據(jù)資源,是可以做出比程序設(shè)計高出十倍百倍的數(shù)據(jù)創(chuàng)新智能應(yīng)用的。
人工智能許多早期的成功發(fā)生在相對樸素且形式化的應(yīng)用環(huán)境中,而且不要求計算機具備很多關(guān)于世界的知識,那些可以通過一系列形式化的數(shù)學(xué)規(guī)則來描述的問題,對計算機來說只要可以轉(zhuǎn)化成算法程序,依靠計算機強大的算力讓問題得到迅速解決,例如IBM的深藍國際象棋系統(tǒng)打敗了人類的世界冠軍。依靠預(yù)先設(shè)計的算法來解決智能問題,這就是所謂設(shè)計派的路數(shù),而其最大死穴也在于妄圖用復(fù)雜的算法解決智能問題的一切,這個套路在上世紀(jì)六十年代末幾乎走不下去。
就像我在澳門某銀行開發(fā)的那個商業(yè)智能應(yīng)用,雖然我們已經(jīng)研究得足以深入,可這種精心設(shè)計的算法實際上也僅僅把何高理那些可以言傳的顯性知識轉(zhuǎn)化成為計算機的搜索+統(tǒng)計分析算法,就我的了解,所體現(xiàn)的僅僅是何高理深不可測的專業(yè)智慧冰山中顯露出來的一角,我花了一年時間也就學(xué)了點皮毛,更遑論發(fā)掘出什么我們都意想不到的隱性知識模式,做到后面再發(fā)展也比較吃力了。
比較諷刺的是,抽象和形式化的任務(wù)對人類而言是最困難的腦力任務(wù)之一,但對計算機而言卻屬于最容易的。計算機雖然能夠打敗人類最好的世界象棋選手,但直到最近計算機才在識別對象或語音任務(wù)中達到人類的中低水平,一個人的日常生活需要關(guān)于世界的巨量知識。很多這方面的知識是主觀的、經(jīng)驗化和個性化的,因此很難通過形式化的方式表達清楚。計算機需要獲取同樣的知識才能表現(xiàn)出智能,人工智能的一個關(guān)鍵挑戰(zhàn)就是如何將這些非形式化的知識傳達給計算機,以讓其人工智能系統(tǒng)能解決現(xiàn)實中一些對人來說很顯而易見的常識問題。
于是我們可以看到,即使在相對樸素且形式化的環(huán)境中,設(shè)計派的人工智能系統(tǒng),在業(yè)界也被稱為“人工智能1.0”也很快遇到發(fā)展不下去的窘境,被深藍打敗的國際象棋世界冠軍知道算法原理后也很不服氣,認(rèn)為比賽并不公平,他只是被自己的失誤所打敗的。
到上世紀(jì)七十年代,人工智能的發(fā)展開始嘗試走上數(shù)據(jù)驅(qū)動的道路,簡單來說是我之前曾解釋過的從數(shù)據(jù)中學(xué)習(xí)新知識的方法和手段,就是實現(xiàn)對數(shù)據(jù)資源的學(xué)習(xí)行為,幫助人類和計算機從現(xiàn)有的數(shù)據(jù)資源中獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身表現(xiàn)及技能。數(shù)據(jù)或者我所定義的數(shù)據(jù)學(xué)習(xí)驅(qū)動下的人工智能,現(xiàn)在被稱為人工智能2.0。
引用吳軍博士的觀點:“在有大數(shù)據(jù)之前,計算機并不擅長解決需要人類智能來解決的問題,但是今天這些問題換了一個思路加以解決,其核心就是變智能問題為數(shù)據(jù)問題?!睂Υ擞^點,我大體上是認(rèn)同的,只是我認(rèn)為智能問題并不能等價于數(shù)據(jù)問題,我們用數(shù)據(jù)學(xué)習(xí)的方法來解決智能問題,這中間涉及知識的數(shù)據(jù)表示或者數(shù)據(jù)建模的技術(shù)問題,如果不解決這個技術(shù)問題,智能問題也無法轉(zhuǎn)化為數(shù)據(jù)問題而加以有效解決。
其實設(shè)計派和學(xué)習(xí)派兩個人工智能方向都各有長短,一般而言,設(shè)計派的人工智能算法基于嚴(yán)謹(jǐn)?shù)倪壿嬐评砗蛿?shù)學(xué)分析,結(jié)果是比較精準(zhǔn)、穩(wěn)定而高效的,而對于現(xiàn)實世界中大多數(shù)智能應(yīng)用場景,很難排除無限的環(huán)境影響因素而只關(guān)心有限幾個抽象變量之間的變化規(guī)律,所以設(shè)計派做再多的努力都難免百密一疏,這一疏就足以讓其前功盡棄,而學(xué)習(xí)派的智能系統(tǒng)卻能隨著數(shù)據(jù)學(xué)習(xí)經(jīng)驗的積累而越來越聰明。
今天對大數(shù)據(jù)的深度學(xué)習(xí)事實上是AI向強人工智能應(yīng)用向上發(fā)展的主流,數(shù)據(jù)是人工智能的基礎(chǔ),如我在《數(shù)字化轉(zhuǎn)型首先要提升數(shù)據(jù)學(xué)習(xí)能力》一文中的分析,即使淺表學(xué)習(xí)的低智能應(yīng)用也需要有相應(yīng)的數(shù)據(jù)能力支撐,沒有數(shù)據(jù)基礎(chǔ)的智能應(yīng)用只能是巧婦難為無米之炊,這個道理已經(jīng)是比較淺白的了。
我說“智能水平由數(shù)據(jù)能力決定”這句話的意思,是對當(dāng)前我國廣大組織普遍的數(shù)據(jù)管理和應(yīng)用能力而言,各組織低下的數(shù)據(jù)能力,不但制約了對人工智能技術(shù)的應(yīng)用水平,還是數(shù)字化轉(zhuǎn)型最主要的瓶頸,這時組織遇到大量的數(shù)據(jù)問題不是智能問題,本質(zhì)上還是落后的管理水平或者生產(chǎn)力的問題,在數(shù)據(jù)能力低下的基礎(chǔ)上,我們做不出人工智能系統(tǒng),只能做出大量的人工愚蠢系統(tǒng)或人工弱智系統(tǒng)。
既然我提出的數(shù)據(jù)學(xué)習(xí)概念不僅僅是針對機器,對于我們?nèi)祟愔悄軄碚f,“智能水平由數(shù)據(jù)能力決定”這句話是否也有效呢?我認(rèn)為也是有效的,我們?nèi)祟惖乃季S活動同樣也需要“數(shù)據(jù)”,這些“數(shù)據(jù)”就是我們頭腦里面通過感知和認(rèn)知所獲得的各種經(jīng)驗和體驗的記憶,常言道:“實踐出真知”、“吃一塹長一智”,我們的經(jīng)驗越多,我們頭腦里面的“數(shù)據(jù)”量就越來越多,而形成人類創(chuàng)造性思維主力的頓悟就是基于這些“數(shù)據(jù)”的厚積薄發(fā),要是我們的“數(shù)據(jù)”不夠,創(chuàng)新淪為撞大運或瞎折騰。
最后分享點小心得,我發(fā)現(xiàn)通過碼文字寫文章,我頭腦里很多模糊的認(rèn)知可以轉(zhuǎn)化成為條理清晰的文本數(shù)據(jù),這無疑也是一種有效的數(shù)據(jù)治理行動,這些治理過的數(shù)據(jù)能大大提升我的學(xué)習(xí)能力,從而高效加深我對知識的理解。
(本稿完成于2020年7月8日,如需轉(zhuǎn)載請注明出處)