中國AI簡史 裴健和華人數(shù)據(jù)挖掘大牛們

近日加拿大皇家科學院公布了新當選的一批院士名單,其中 CCF-GAIR 2018 的講者、加拿大 Simon Fraser 大學計算科學學院教授裴健入選,是本次當選的四位計算機學科院士之一。

借此,左林右貍頻道八一八新科院士裴健以及在數(shù)據(jù)挖掘領(lǐng)域的諸多華人之光。這也是《中國人工智能簡史》的系列劇透之一,是的,大叔在沸騰新十年的同時也在與岑峰共同創(chuàng)作《中國人工智能簡史》,創(chuàng)作完結(jié)時間節(jié)點大約在冬季,出版時間應(yīng)該在明年春天。

左林大叔與裴健的結(jié)緣始于 2017 年,從 2016 年起,雷鋒網(wǎng)積極參與了十余個國際頂級 AI 學術(shù)會議的報道,其中包括在加拿大哈利法克斯召開的 SIGKDD 2017。就在 SIGKDD 大會前,裴健履新成為 SIGKDD 的主席,我們對裴健也進行了專訪,也就是在這屆大會上,雷鋒網(wǎng)向裴健介紹了我們與 CCF 聯(lián)合舉辦的 CCF-GAIR 大會并邀請他來做演講,裴健欣然應(yīng)允。

在 2018 年的 CCF-GAIR 大會上,履新京東副總裁的裴健結(jié)合在企業(yè)界的實踐做了題為《智慧供應(yīng)鏈》的演講,分享了智慧供應(yīng)鏈帶動制造和流通行業(yè)降本增效的心得,是大會最受歡迎的演講者之一。

2017 年 KDD 大會上,裴健正式就任 SIGKDD 主席,右為前任主席劉兵

2017 年 KDD 大會上,裴健正式就任 SIGKDD 主席,右為前任主席劉兵

裴健當選加拿大皇家科學院院士可謂華人數(shù)據(jù)挖掘領(lǐng)域的一件大事。數(shù)據(jù)挖掘的概念最初在 1995 年提出,相對于計算機科學的其它學科,數(shù)據(jù)挖掘?qū)儆诮陙聿诺靡匝杆侔l(fā)展的一個方向,此前在 2004 年,吳建福教授作為第一位統(tǒng)計學者當選美國國家工程院院士,也是華人統(tǒng)計學者當選主流國家院士第一人。

而此后真正因為數(shù)據(jù)挖掘成就當選院士的研究者屈指可數(shù),在左林大叔的印象中,在華人中只有清華校友、英國帝國理工學院數(shù)據(jù)研究所所長郭毅可 2018 年當選英國皇家工程院院士,不過工程院院士更多反映的是在工程項目上的能力,而科學院院士的評選更為注重學術(shù)研究能力,以裴健在數(shù)據(jù)科學的影響力來看可謂實至名歸。

多說一句,雷鋒網(wǎng)的另一位老朋友也是 CCF-GAIR 2019 的講者鄧力是加拿大工程院的院士(加拿大工程院與皇家科學院的異同大抵與中國工程院和科學院的異同差不離),鄧力在深圳期間也給我們講述了當年他與陸奇、余凱的交往故事,以及微軟百度谷歌三家爭奪 Hinton 團隊的江湖軼事,十分精彩,我們也會在《中國人工智能簡史》里一一呈現(xiàn)。

加拿大工程院院士鄧力在CCF-GAIR 2019大會上

加拿大工程院院士鄧力在CCF-GAIR 2019大會上

加拿大工程院院士鄧力在CCF-GAIR 2019大會上

回來八裴健,在左林大叔看來,裴健成為數(shù)據(jù)挖掘領(lǐng)域當之無愧的領(lǐng)軍人物的原因在于他的全面性:學術(shù)方面,他發(fā)表了 200 余篇論文,被引用 8 萬多次,并因在 Frequent Patterns 的相關(guān)研究獲得了 SIGKDD 2017 的創(chuàng)新獎(Innovation Award),是第三位獲得該獎項的華人,在他之前獲得過該獎項的兩人分別是韓家煒(2004)和俞士綸(Philips S. Yu,2016)。

他還是第三位獲得 KDD 卓越服務(wù)獎的華人,在2015年他獲獎之前,獲得該獎項的華人包括清華的吳信東(2005)、Ying Li(2012);他是第二個擔任 SIGKDD 主席的華人,此前擔任過該職位的華人是伊利諾伊大學的劉兵(記得裴健在 2017 年的專訪也提到劉兵對其的耳濡目染);而此次當選加拿大皇家科學院院士,則是華人在數(shù)據(jù)挖掘領(lǐng)域的又一個里程碑。

裴健分別于 1991 年和 1993 年在上海交通大學計算機科學與工程系獲得學士與碩士學位。前兩年曾為中央領(lǐng)導(dǎo)講解大數(shù)據(jù)概念的梅宏院士,博士也是在上海交大,和裴健系出同門,兩人在交大時就相熟,有著二十多年的交情。梅宏博士畢業(yè)后到北京大學做楊芙清的博士后,裴健也到北京大學繼續(xù)攻讀數(shù)據(jù)庫方面的博士。

1998 年,由 IBM 資助,復(fù)旦大學召開過一次數(shù)據(jù)挖掘的討論班,這也是中國最早的數(shù)據(jù)挖掘交流活動,當時請來的主講老師是陸宏鈞和韓家煒,這一討論班為參會的師生推開了數(shù)據(jù)挖掘的大門,從這一點講,韓家煒無愧于中國數(shù)據(jù)挖掘的引路人。當時裴健還在北大讀博士,在討論班中他提出的問題頗有深度,給韓家煒留下了深刻的印象。一年后裴健來到加拿大,到韓家煒麾下攻讀 PhD。

2000 年,裴健與韓家煒發(fā)表了《Mining frequent patterns without candidate generation》一文,這篇文章被引用 8000 多次,也正是這一研究使得裴健成為國際數(shù)據(jù)挖掘界的學術(shù)之星;當然,讓裴健影響力達到頂峰的是他在 2011 年與韓家煒編寫的經(jīng)典教材《Data Mining: Concepts and Techniques》,這也是全世界學習數(shù)據(jù)挖掘的學生的首選教材。

韓家煒在數(shù)據(jù)挖掘、數(shù)據(jù)庫和信息網(wǎng)絡(luò)領(lǐng)域發(fā)表論文數(shù)百篇,在 Google Scholar 上的被引用量接近 17 萬次,h-index 高達 169,被譽為“數(shù)據(jù)挖掘第一人”。韓家煒父親上海交大畢業(yè),是鄭州紡織機械廠任財務(wù)科長兼總會計師。韓家煒是家里四個孩子中的老二,不僅提早讀書,后來還跳了一級,1966 年文化大革命開始的時候,韓家煒剛剛從鄭州七中讀完高中,文革期間就地就讀鄭州大學并以工農(nóng)兵學員畢業(yè),如果不是文革,韓家煒像他哥哥和父親一樣考個交大應(yīng)該是沒有問題的。

韓家煒在 CCAI 2018 中國人工智能大會上

韓家煒在 CCAI 2018 中國人工智能大會上

1978 年恢復(fù)高考后,韓家煒便報考了中科院的研究生,因為當時中科院掛著中國科技大學研究生院的牌子,因而也有不少人錯認為韓家煒是中科大的畢業(yè)生。實際上韓家煒在中科院的研究生只讀了一年,第二年他就考取美國公費留學的名額。在威斯康星麥迪遜大學讀博士期間,他最初先是做計算機數(shù)據(jù)庫的專家系統(tǒng),后來專家系統(tǒng)遭遇困境,考慮到研究方向的發(fā)展前景問題,隨后又選擇了關(guān)聯(lián)數(shù)據(jù)庫作研究方向。

韓家煒的這一選擇也恰好趕上了知識發(fā)現(xiàn)的風口。隨著數(shù)據(jù)庫技術(shù)的發(fā)展應(yīng)用,數(shù)據(jù)的積累不斷膨脹,導(dǎo)致簡單的查詢和統(tǒng)計已經(jīng)無法滿足企業(yè)的商業(yè)需求,而人工智能在專家系統(tǒng)上遇到困境,也急需一個新的場景落地。于是數(shù)據(jù)庫與人工智能兩者的結(jié)合促生了一門新的學科,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)。

1989 年 8 月召開的第 11 屆國際人工智能聯(lián)合會議的專題討論會上,首次提出了知識發(fā)現(xiàn)(KDD)這個術(shù)語,并在 1995 年召開了第一次 SIGKDD 大會,韓家煒正是 KDD 早期的組織者和參與者。在 SIGKDD 大會上,韓家煒組也是發(fā)表論文最多的研究團隊之一。

韓家煒是被 KDD 社區(qū)認可的第一位華人,他于 2004 年在 SIGKDD 大會上獲得創(chuàng)新獎。第二位被授予重要獎項的華人是吳信東,他獲得的是 2005 年 SIGKDD 的卓越服務(wù)獎。

吳信東的故事頗有戲劇性,他本、碩均畢業(yè)于合肥工業(yè)大學并留校,1991 年到英國愛丁堡大學攻讀博士學位,之后一直從事數(shù)據(jù)挖掘與知識處理方面的研究。吳信東在還沒有到英國讀博士之前,就有給知識與數(shù)據(jù)挖掘領(lǐng)域最好的期刊TKDE(IEEE Transactions on Knowledge and Data Engineering)投稿,但一直屢投不中,屢敗屢戰(zhàn),直到博士畢業(yè)后的 1998 年才終于投中了第一篇 TKDE。

到了 2005 年,吳信東成為了 TKDE 的主編,實現(xiàn)了“從奴隸到將軍”(吳信東自稱)的轉(zhuǎn)變。或許是對投論文的艱難歷程深有體會,他創(chuàng)辦了數(shù)據(jù)挖掘領(lǐng)域的頂級會議 IEEE ICDM,這一學術(shù)會議后來成為不少華人學者的發(fā)聲平臺,在幫助提升華人學者在知識工程和數(shù)據(jù)挖掘領(lǐng)域的影響力方面起到了積極作用。

明略數(shù)據(jù)首席科學家和副總裁 吳信東

明略數(shù)據(jù)首席科學家和副總裁 吳信東

2001 年,韓家煒從 Simon Fraser 大學轉(zhuǎn)至 UIUC 任教。UIUC 也是眾多留學生偏愛的學校,其特點一是相對于藤校和斯坦福伯克利這一等級的熱門學校要相對好申請一些,二是出門的上限高,如果你足夠勤奮和努力,這里的名師絕對不會讓你失望。華人計算機視覺的燈塔黃煦濤,就是在 1980 年從普渡大學來到 UIUC(在《中國人工智能簡史》一書視覺一章里,黃老先生的故事支撐了整個華人計算機視覺研究起承轉(zhuǎn)合的起)。

韓家煒的到來,讓 UIUC 也成為了數(shù)據(jù)研究的重要基地。韓家煒在 UIUC 期間,每年都從國內(nèi)招收學生,每年報考人數(shù)數(shù)百名,最終成為他學生的可以用“百里挑一”形容。韓是那種自己學術(shù)做得極好,還能把學生培養(yǎng)好的極為少見的老師,除了早期的裴健等學生,后來在UIUC培養(yǎng)的學生還包括嚴錫峰(UCSB)、蔡登(浙江大學)、朱飛達(新加坡管理大學)、顧全全(UCLA)、孫怡舟(UCLA)、任翔(USC)等學術(shù)新星和柳超(天眼查)等創(chuàng)業(yè)者。不過傳言 2019 秋季將是韓家煒最后一次招博士生,之后再拜入韓門,只能從第二代弟子做起了。

韓家煒后期帶的學生時常將裴健這位“大師兄”作為學習的榜樣和趕超的目標,當中也發(fā)生了一些有趣的故事。例如在 2010 年的 ECML-PKDD 上,韓家煒做了一個題為《結(jié)構(gòu)就是信息:挖掘結(jié)構(gòu)信息網(wǎng)絡(luò)》的主題演講,在提問環(huán)節(jié),另一位大牛 Christos Faloutsos 舉手問道:“你做的這個網(wǎng)絡(luò)很厲害,但是你能否預(yù)測到我明年寫什么文章?”韓回答道:“我連自己的都預(yù)測不到,更別提你的啦。”回去后韓家煒將這個笑話講給當時還在他手下讀博士的孫怡舟聽,孫怡舟很嚴肅地認為這不是一個簡單的笑話。經(jīng)過分析和討論后,韓家煒和孫怡舟定了一個新課題,預(yù)測 Christos 今后幾年會和哪些新的作者合作。

伊利諾伊大學厄巴納-香檳分校(UIUC)

伊利諾伊大學厄巴納-香檳分校(UIUC)

2011年在ASONAM 上,孫怡舟發(fā)表了一篇影響力巨大的文章《Co-author Relationship Prediction in Heterogeneous Bibliographic Networks》,在文章中,孫怡舟根據(jù) 1996-2002 年的數(shù)據(jù),預(yù)測大師兄裴健在 2003-2009 年間會有哪些合作者,排名前五的預(yù)測中只有一個沒有出現(xiàn)。而實際上裴健也和這位作者有合作,只不過他們合作的論文要晚兩年,在 2011 年才發(fā)表,沒有被統(tǒng)計進測試集中而已。數(shù)據(jù)挖掘大牛的世界還真心遵循數(shù)據(jù)挖掘的規(guī)律啊。

另一位從Simon Fraser大學走出、受韓家煒影響的大牛是楊強,哪個楊強,就是最國際化的華人 AI 大牛,IJCAI 2019 的理事會主席楊強。楊強父親是北大天文學家楊海壽,因此楊強最初也子承父業(yè),1982 年考取了李政道的中國與美國聯(lián)合培養(yǎng)物理類研究生計劃(CUSPEA)來到美國馬里蘭大學學習天體物理。

楊強是一個對新鮮事物特別感興趣的人,早在 1980 年代初還在北京大學寫論文的時候,他就被當時的小型機所吸引,通宵達旦地研究計算機,并在計算機上編寫了一個游戲程序,后來在美國做太陽耀斑活動(對,就是《流浪地球》里導(dǎo)致地球流浪的原因)研究的時候,還用計算機做了一個 3D 模型。

但真正將楊強引上計算機道路的是當時也在馬里蘭大學學習的彭云,彭云是烈士江姐的兒子,也是文革后留學美國的學生中,最早研究人工智能和在美國取得計算機教職的人。受彭云影響,楊強不僅在拿到天文學的碩士后又拿了一個計算機碩士,之后在攻讀博士時,也改行選擇了做人工智能與邏輯推理的方向。

楊強當選新任 IJCAI 理事會主席,現(xiàn)場評選結(jié)果圖

楊強當選新任 IJCAI 理事會主席,現(xiàn)場評選結(jié)果圖

楊強在馬里蘭大學拿到博士學位后,先后在滑鐵盧大學和 Simon Fraser 任教,也正是在 Simon Fraser 與韓家煒共事期間,楊強接觸到了很多關(guān)于數(shù)據(jù)挖掘的東西。當時楊強剛剛拿到終身教職,他希望去做一些可以解決實際問題的研究而不光是寫論文,于是選擇了基于實例的推理(Case Base Reasoning)方向;而數(shù)據(jù)挖掘正好能與他所做的這方面研究結(jié)合起來。所以楊強今日所做的遷移學習、聯(lián)邦學習以及大數(shù)據(jù)方面的研究,其實可以從 Simon Fraser 時期算起。

楊強與裴健也關(guān)聯(lián)頗多,當裴健來到 Simon Fraser 攻讀韓家煒的博士生時,楊強恰好是計算機系研究生院的Chair,因此裴健來到 Simon Fraser 時最終是楊強簽的字,在之后的學術(shù)研究中楊強也對裴健給予了諸多支持和鼓勵,后來兩人也有諸多交集。這兩個人的關(guān)系像極了機器人領(lǐng)域的兩位超級大牛 Vijay Kumar 和徐楊生,他們在卡納基梅隆大學相遇時也是一個剛剛博士畢業(yè)的青年教師,一個是博士生,這種明師實友的交往成為他們一輩子最珍惜的青春財富。

Vijay Kumar是 CCF-GAIR 2016-2017 兩年的明星講者,而徐楊生是 CCF-GAIR 最重要的發(fā)起人之一,大叔作為 CCF-GAIR 的發(fā)起人之一曾經(jīng)與徐楊生校長共同接待并陪伴Vijay Kumar前后多日,目睹了Vijay Kumar與徐楊生之間跨越時空的友誼。

回來八楊強,1998 年,李開復(fù)籌建微軟中國研究院時力邀楊強“回中國來看一看”,恰逢楊強次年有一段學術(shù)休假期,于是便利用這一機會來到了微軟中國研究院。楊強幫助微軟做了中國最早的一個搜索引擎,他在微軟亞研做項目到 2000年(大叔的師兄王海峰也在此期間參與該項目,算起來,王海峰也是中國最早做搜索的幾個人之一,王海峰今天升任百度 CTO,也是名至實歸),直到微軟決定把搜索引擎的研究拿到總部去做為止。

在微軟亞研的經(jīng)歷讓楊強感覺到了中國正在崛起,開始動了回來的念頭,但考慮到國內(nèi)研究的基礎(chǔ)環(huán)境,最終與家人商量后選擇了一個折中方案,去了香港科技大學,與國內(nèi)和國際學術(shù)界、產(chǎn)業(yè)界均保持緊密的合作。2004 年和 2005 年,楊強團隊連續(xù)兩年在 KDD Cup 上獲得冠軍,楊強本人也在 2010 年擔任 SIGKDD 的程序主席及 2012 年北京 SIGKDD 的大會主席(這一年 SIGKDD 的程序主席正是裴健)。

2005 年楊強(右二)KDD Cup 奪冠照片,右一為沈抖

2005 年楊強(右二)KDD Cup 奪冠照片,右一為沈抖

2005 年楊強(右二)KDD Cup 奪冠照片,右一為沈抖

也正是在 2012 年,在任正非的推動下,華為開始關(guān)注大數(shù)據(jù)并在香港成立了諾亞方舟實驗室,楊強任首任主任,后任者還有今天去了頭條的李航。

楊強曾經(jīng)告訴左林大叔,諾亞方舟的最初目標雖然是大數(shù)據(jù),但他認為當時 Hadoop、Spark 這些工具已經(jīng)比較成熟,因此提議將一大部分資源放到人工智能與機器學習的研究上。當時人工智能正處于低谷,諾亞方舟作為第一批做人工智能的工業(yè)實驗室,對于希望去工業(yè)界的博士來說還是很有吸引力的。

當時 Yann Lecun 還向楊強推薦了幾個博士后,條件都談得差不多了,最后這幾個博士后還是被一家在英國的初創(chuàng)公司“截胡”了。又過了幾年,楊強在新聞上再一次看到了這家初創(chuàng)公司的名字:DeepMind。如果這幾個博士后選擇的是諾亞方舟,不知先做出 AlphaGo 的會不會是華為呢?

就在 AlphaGo 火了的 2016 年,楊強發(fā)起成立了 ACM 數(shù)據(jù)挖掘中國分會(KDD China)并擔任主席。僅在 2016 年,KDD China 就已經(jīng)組織了十項活動,大力促進了 SIGKDD 在中國的發(fā)展,為中國工業(yè)和學術(shù)界之間架起了橋梁。正因為多年來在數(shù)據(jù)挖掘領(lǐng)域的非凡服務(wù)和貢獻,楊強在 2017 年的 SIGKDD 上獲得了卓越服務(wù)獎。

和楊強一樣橫跨機器學習和數(shù)據(jù)挖掘兩大領(lǐng)域的還有南京大學的周志華。周志華本碩博均在南京大學,是人工智能界佼佼者中少有的本土博士。周志華的導(dǎo)師是陳世福,陳世福教研組主要的科研項目方向是專家系統(tǒng),周志華自己進入當時尚屬冷門的機器學習領(lǐng)域,一直堅持了下來。由于當時“數(shù)據(jù)挖掘”比“機器學習”更容易被應(yīng)用單位理解,他也開展了作為機器學習應(yīng)用的數(shù)據(jù)挖掘研究工作。2007 年的 PAKDD 在南京大學召開,楊強和周志華正是大會的兩大 Program Chair。

周志華

周志華

順便說一句,PAKDD 現(xiàn)在在 CCF 的國際頂會名單上雖然只是 C 類會議,實際上卻是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域歷史最悠久、領(lǐng)先的國際會議之一(像吳信東創(chuàng)辦的 ICDM 屬于后起之秀),在國外口碑很好。第一屆 PAKDD 于 1997 年在新加坡召開,第一屆委員會中的華人包括劉兵和劉歡,當時兩人均在新加坡國立大學任教,屬于近水樓臺先得月。

劉兵后來去往伊利諾伊芝加哥分校,不僅積極參與KDD社區(qū)組織工作,在1998年發(fā)表的《Integrating Classification and Association Rule Mining》及2004 年發(fā)表的《Mining and Summarizing Customer Reviews》分別在 KDD 2014 及 KDD 2015 年連續(xù)兩屆獲得時間檢驗獎,他本人也在 2013 年被當選為 SIGKDD 第一位華人主席。

劉歡則是前往亞利桑那大學,他本人也是橫跨信息檢索與數(shù)據(jù)挖掘領(lǐng)域的高被引學者,在他的帶領(lǐng)下,他的兩個學生胡俠、湯繼良也積極參與 KDD 社區(qū)活動,擔任了近幾屆 SIGKDD 大會的分領(lǐng)域 Chair,胡俠還是 CCF-GAIR 2018 和 CCF-GAIR 2019 兩屆的明星講者。

周志華在2004年在南京大學創(chuàng)建了機器學習與數(shù)據(jù)挖掘研究所(LAMDA),經(jīng)過十余年的發(fā)展,LAMDA 已成為國內(nèi)機器學習與數(shù)據(jù)挖掘最具影響力的機構(gòu)。楊強發(fā)起成立 KDD China,周志華出任 KDD China 副主席,另一位副主席、百度高級副總裁沈抖是楊強的博士生。楊強團隊在 2005 年 KDD Cup 奪冠,沈抖就是其中一員,也是公認的一號位。

這一年奪冠隊伍里,有一位我們的老熟人,也是 CCF-GAIR 2017 的講者,IPin的聯(lián)合創(chuàng)始人潘嶸,當時潘嶸在給楊強做博士后。還有一位楊強的博士后,后來去微軟的孫劍濤,其他的則都是楊強教授的博士:潘軍鋒(FB) ,吳康恒(香港某科技公司),寅潔(澳洲)。楊強教授的學生里還有一位不是博士生勝似博士生的超級大牛戴文淵,戴文淵今天是數(shù)據(jù)挖掘和深度學習明星公司第四范式的創(chuàng)始人,也是交大 ACM 班的明星學生之一,戴文淵和交大ACM班的故事也是我們《中國人工智能簡史》的重要章節(jié)。

第一屆 KDD Cup 于 1997 年舉行。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國際頂級賽事,KDD Cup 每年都會吸引世界數(shù)據(jù)挖掘界的頂尖專家、學者、工程師、學生等前來參賽。它被譽為大數(shù)據(jù)領(lǐng)域的“奧運會”。

KDD Cup 1997預(yù)測出最可能的善款捐贈人

KDD Cup 1997預(yù)測出最可能的善款捐贈人

KDD Cup 1997預(yù)測出最可能的善款捐贈人

KDD Cup 的題目大都強調(diào)實用性,歷年的競賽所用數(shù)據(jù)往往被數(shù)據(jù)挖掘從業(yè)者用作研究和開發(fā)的良好訓練數(shù)據(jù)。KDD Cup 前期多為大學來承辦,近 10 年來多為企業(yè)承辦,也反映出有價值的大規(guī)模數(shù)據(jù)逐步從研究機構(gòu)轉(zhuǎn)向由業(yè)界公司掌握的趨勢。

早在 2004、2005 年,香港科技大學教授、IEEE Fellow 楊強就作為領(lǐng)隊引導(dǎo)其團隊連續(xù)兩年拿下 KDD Cup 比賽冠軍。略有不同的,2005 年楊強是親自帶學生,2004 年 KDD Cup 是楊強與中科院高文團隊合作,當年的試題之一是蛋白質(zhì)同源性預(yù)測,生物信息檢索正好是高文老師研究的方向之一,2002 年,高文課題組成功申請到國家 973 項目下的“基于信息技術(shù)的蛋白質(zhì)組研究”課題,這或許正是中國隊伍在這一年的 KDD Cup 取得突破的原因。

高文在CCF-GAIR 2018上

高文在CCF-GAIR 2018上

高文在CCF-GAIR 2018上

言歸正傳,KDD 2004 的賽題要求參賽者運用各種數(shù)據(jù)挖掘、機器學習手段從訓練數(shù)據(jù)中找出規(guī)律,將康奈爾大學開發(fā)的蛋白質(zhì)折疊識別程序LOOPP 生成的 74 個蛋白質(zhì)同源性度量指標合并成一個同源性打分函數(shù),對數(shù)據(jù)庫中的蛋白質(zhì)與查詢蛋白質(zhì)之間的同源性進行預(yù)測。這一題目有三個難點:一是數(shù)據(jù)具有塊結(jié)構(gòu)形式;二是訓練樣本數(shù)量巨大;三是訓練數(shù)據(jù)的類別分布極端不平衡。

對于這一問題,當時的主流方法是利用SVM和最大熵等判別模型來構(gòu)造排位函數(shù),高文則是在此基礎(chǔ)上,使用了一個線性判別模型合并從隱馬科夫模型導(dǎo)出的多個特征,最終這一方法有效地提高了檢索函數(shù)學習的準確性,從而在 KDD CUP-2004 蛋白質(zhì)同源性預(yù)測問題上得到了非常成功的應(yīng)用。

最終的預(yù)測結(jié)果取得了 APR 和 RMS 指標第一名,TOP1 指標第二名,RKL 指標第十四名,綜合成績并列第一名的成績。這是中國研究人員首次在 ACM KDDCUP 數(shù)據(jù)挖掘競賽取得優(yōu)勝。這也是中國的學術(shù)研究人員在國際頂會的競賽項目取得冠軍的最早突破之一,之所以說是之一,是幾乎是同期,丁曉青團隊在 ICPR 上取得 FAT 2004 人臉比賽的第一名。

按照大叔的大學同學,也是 KDD Cup 2004 年的冠軍成員之一的山世光的描述,這次奪冠的第一主力是付巖,付巖后來從計算機去了數(shù)學所,當時是計算所兩位教授高文和賀思敏共同的博士生,賀思敏是這次比賽奪冠的 leader,另一位主力孫瑞祥也是當時賀思敏團隊成員。

山世光

山世光

哦,忘了恭喜山世光名列 2019 騰訊首屆科學探索獎的 50 名青年科學家行列。

說來也巧,周志華作為香港科技大學計算機系聘請的不多幾位內(nèi)地榮譽兼職教授,第一次到香港科大訪問時,去接站的就是當時在讀博士生,KDD Cup 2005 的第一主力沈抖。沈抖畢業(yè)后進入工業(yè)界,在加入百度前是微軟西雅圖 AdCenter 實驗室的研究員。

KDD China主持具體工作的負責人秘書長鄭宇,現(xiàn)任京東副總裁,之前是微軟亞洲研究院的明星研究員,同樣是 CCF-GAIR 多屆明星講者,2016 年第一屆 CCF-GAIR,鄭宇就是程序主席,為 CCF-GAIR 大會做了不少工作。

鄭宇也還是 KDD 社區(qū)的活躍組織者。他從 2011 年開始參加 SIGKDD,之后每年的 SIGKDD 大會都會參加。鄭宇很早就在 SIGKDD 上舉辦城市計算的 Workshop,到今年(2019年)已經(jīng)是第八屆。從 2016 年起,KDD China 在 SIGKDD 上開始舉辦"Data Science in China "論壇主題活動,活動的主要組織者也是鄭宇,這一活動的舉辦也有力展示了中國在數(shù)據(jù)挖掘領(lǐng)域的實力。

京東集團副總裁鄭宇在 IJCAI 2019 大會上

京東集團副總裁鄭宇在 IJCAI 2019 大會上

如果說 2016 年是華人在數(shù)據(jù)挖掘領(lǐng)域全面發(fā)力的拐點,那么接下來的時間則是華人數(shù)據(jù)挖掘的高光時刻。在 SIGKDD 2017 上,不僅裴健接任劉兵當選 SIGKDD 主席,在三大獎項中,楊強獲得杰出服務(wù)獎、裴健獲得創(chuàng)新獎,華人得其二,此外,本屆大會的最佳應(yīng)用論文被西弗吉尼亞大學葉艷芳團隊獲得,同時中國隊伍包攬了這屆 KDD Cup 的所有獎項。

在接下來的 SIGKDD 2018 上,不僅劉兵、唐杰再度包攬創(chuàng)新獎及杰出服務(wù)獎兩項大獎,郭毅可、唐杰、熊輝、林智仁、楊強等人擔任了大會主席、副主席、程序主席、評獎委員會主席等重要角色,在評獎委員會的八人名單中,華人更是占到五人(楊強、韓家煒、裴健、王薇、俞士綸),“中國力量”儼然成為這幾年 KDD 的主基調(diào)。

在左林大叔看來,在諸多人工智能相關(guān)的領(lǐng)域中,數(shù)據(jù)挖掘是華人參與度最高、也是最有望實現(xiàn)超越的領(lǐng)域。這不僅是因為強調(diào)“動手能力”的數(shù)據(jù)挖掘更能發(fā)揮中國人的長處,還因為數(shù)據(jù)挖掘是一門與產(chǎn)業(yè)密切結(jié)合的學科,中國龐大的市場與人口基數(shù),以及新一批互聯(lián)網(wǎng)科技公司的茁壯成長,都為中國人引領(lǐng)世界潮流提供了堅實的基礎(chǔ)。

羅馬不是一天建成的,今日數(shù)據(jù)挖掘領(lǐng)域所呈現(xiàn)的“中國力量”,有數(shù)據(jù)挖掘老中青三代人的不懈努力,更離不開研究者們的薪火相傳。不過關(guān)于數(shù)據(jù)挖掘的故事,大叔更愿意用天時地利人和來形容:

所謂天時,是韓家煒、俞士綸、陸宏鈞等最早一批進行數(shù)據(jù)挖掘的研究者,恰逢數(shù)據(jù)挖掘興起之時就積極參與其中,為后來華人社區(qū)的壯大打下了堅實的基礎(chǔ);

所謂地利,是從上世紀 90 年代起中國高速發(fā)展崛起的過程中,對數(shù)據(jù)挖掘的旺盛需求為新一批數(shù)據(jù)挖掘中堅力量的崛起供了良好的機會;

所謂人和,是裴健、楊強、劉兵、劉歡、周志華、吳信東、鄭宇等之后一批數(shù)據(jù)挖掘的領(lǐng)軍人物與中堅力量發(fā)揮了承上啟下的作用,在參與數(shù)據(jù)挖掘社區(qū)活動的同時,積極帶動其他后起之秀參與到社區(qū)中來,使得華人贏得了數(shù)據(jù)挖掘社區(qū)的尊重。

KDD 2017 China Day 合影

KDD 2017 China Day 合影

前排左起:劉兵、韓家煒、楊強、裴健

后排左二:鄭宇 左四:劉歡

從行業(yè)周期的角度看,從 1989 年知識發(fā)現(xiàn)的概念提出到今天,數(shù)據(jù)挖掘剛剛走過了三十年的一個完整周期。從這一角度看,授予裴健院士是一個肯定的信號,也預(yù)示著數(shù)據(jù)挖掘下半場拉開了序幕。

再度恭喜裴健被評為院士,也恭喜投身數(shù)據(jù)挖掘領(lǐng)域的各位研究者們,你們正站在一個新時代的起點。大叔預(yù)計在不久的將來,這個領(lǐng)域會有更多的研究者獲得他們應(yīng)有的榮譽,也希望各位研究者們在未來三十年中保持初心,壯志前行,繼續(xù)書寫數(shù)據(jù)挖掘的輝煌。

數(shù)風流人物,還看今朝。

推薦DIY文章
朗科新推絕影NV5000-t固態(tài)硬盤 溫控技術(shù)更高 售價暫未公布
2022款iPadPro將可使用視頻編輯軟件達芬奇 使用軟件更專業(yè)
蘋果全新推出AppleTV 4K產(chǎn)品:流式傳輸可以千兆以太網(wǎng)進行
智己L7SnakePerformance高性能版:新車瞄準數(shù)秒級圈速提升
閃迪大師PRO-G40SSD外置固態(tài)硬盤:兼具極速傳輸與耐用優(yōu)點
i9版ThinkBook14+/16+新品有望下月上市 首發(fā)約4999元起
精彩新聞

超前放送