10月8號,禮拜一上午九點,中海理工大綜合實驗大樓自然語言識別研究所。
和煦的陽光穿過紗窗照射在檀木色辦公桌說,留下一塊塊明暗交替的光斑,戴着老花鏡的唐天華教授正手持鋼筆修改材料。
就在這時,辦公室門被人「咚咚咚」的敲響了。
「進來。」
門「咔噠」一聲被人從外面擰開,唐教授下意識看過去,等見到進來的人後,那張不苟言笑的臉上卻是露出了笑容。
進來的人自然便是陳序了,走到辦公桌前面有些侷促的喊道:「老師好!」
唐教授笑着伸手示意了一下說:「坐下說。」
陳序走到牆根便的實木椅旁坐下。
唐教授挪動了一下身體,靠在椅背上慈眉善目的笑問道:「怎麼樣,有沒有決定好研究方向?」
說實話,唐教授也對陳序的功課進行了一番了解,在看到那些連優秀都稱不上的成績單時,心裏是有些動搖的,想着是不是再觀察觀察?
不過那篇讓他為之驚艷的論文時,所有疑慮都打消了。
這是一個在自然語言處理方面非常有天賦的年輕人,他打算好好培養一番。
陳序撓撓頭說:「呃……詞法與句法分析。」
聽到陳序的選擇,唐教授皺了皺眉頭。
從那篇《自然語言處理的前瞻》裏就能看出來,這是一個有着勃勃野心的年輕人,他想挑戰當今世界自然語言處理中最核心的難題也在情理之中。
不過嘛……
唐教授說:「你要想清楚了,一旦選錯方向,可能會走上很多彎路,浪費時間浪費精力,你確定要選擇詞法與句法分析?」
面前唐教授勸解的話語,陳序堅定的點點頭,「我確定。」
燕京hd區中關村科學院南路6號,這裏是「中國計算機協會」的總部,同時也是國內最頂尖的計算機期刊《計算機科學技術學報》、英文名jcst的辦公地點。
上午9點,劉成林教授來到協會處理一些公務。
劉成林不僅是中國計算機協會的副會長、jsct國內總負責人、國內語音識別方面的權威教授,同時也是青木大學的博導。
10點半,劉成林在處理完國慶期間積壓下來的公務後,來到自己辦公室稍作休息,等下便準備下樓吃午飯。
走到辦公桌前瞄了眼案頭,果然又是厚厚一摞的論文稿子。
對此劉成林已經習慣了。
現在人工智能是計算機熱門專業,而語音識別又是熱門裏的熱門,全國那麼多高校,可以想像從事相關方面研究的人何其多?
他作為這方面的權威專家教授,每天要收到很多幫忙審稿的請託。都是一些學術界同仁好友的學生後輩之類的。
趁着吃午飯前的片刻功夫,劉成林想看看這些論文裏有沒有什麼新穎的思路。
拿起第一份,題目是《development of multi-peon speeh reognition software for mobile phone based on android system(基於android系統的手機多人語音識別軟件開發)》。
翻開隨便看了看,沒有新意,沒有亮點,對現有語音識別技術的提升沒有任何幫助,唯一值得肯定的就是還算嚴密的算法結構。
劉成林搖搖頭,把這篇論文放到了一邊,拿起下一本,《speeh reognition based on deep learning and its appliation(基於深度學習的語音識別及其應用研究)》
順手翻開看了看,還不如上一篇呢,都是一些炒冷飯的東西,甚至連語言表述都有些顛三倒四,不知道這樣的論文怎麼就敢拿給他審閱的。
「這都是些什麼人啊!」劉成林有些生氣,順手把論文扔到辦公桌上。
想了想他又拿起論文看了看第二作者,發現是在一個國際學術會議上認識的國內某二流大學教授。
劉成林搖搖頭,拿起紅筆在論文上面畫了個x,然後又在x外面畫了個圈,表示退稿並且不再接收。
平息了一下心情,劉成林伸手從案頭上又拿了份論文。
讓他沒想到的是,這份論文竟然非常厚,粗略估測起碼有一百頁。
「嚯~好傢夥。」劉成林托起論文湊到眼前看了看題目,終於不再是「基於某某某」了,而是《自然語言處理的前瞻》。
「喲,口氣不小嘛!」
看到這個題目,劉成林和唐天華的反應差不多,第一時間就想笑,再加上這麼厚厚一摞,他懷疑這個作者怕不是把論文當小說寫了吧。
看了眼論文題目後面的作者名,第一作者不認識,第二作者名字叫唐天華。
劉成林楞了一下才想起來唐天華是誰。
雙方是在國內的一次專家會議上認識的,印象中這個唐天華在語言識別方面頗有建樹,算是少見的實幹型人才。
不過對唐天華的好印象,並不能改變劉成林連翻開論文看一眼的欲望都沒有的心情。
勉強翻開第一頁。
【摘要:在確定國際自然語言處理領域使用頻率最高的97個關鍵詞的基礎上,運用共詞分析法,以spss數據分析軟件為工具,通過因子分析和聚類分析的方法,並借鑑最新研究成果,探討國際自然語言處理現狀以及未來發展】
四平八穩的開頭雖然沒有讓劉成林有眼前一亮的感覺,但也對對方接下來的所要論述的內容產生的好奇感,想看看對方到底怎麼「編」?
不過劉成林的想法很快便消失了。
這個論文作者不僅沒有「編」,而且一切都在用國際最權威的數據說話。
從自然語言處理中的最基本也是最重要的詞法、語法、語義開始說起,層層推進,步步為營,用最簡單、最樸實無華的語句來告訴讀者,什麼是詞法、語法、語義分析?
現在國際最頂級的大咖研究到了哪裏?
他們遇到了哪些問題?
如果你要從事這方面的研究,你應該從何入手?
看完第一段之後,劉成林有些驚嘆。
這個作者的論文思路清晰、語句通順、層次分明,觀點表達精確,敘述風格已經到了返璞歸真的地步了,他已經很久很久沒有看到過這樣精彩的科普性論文了。
更重要的是,對方在自然語言處理方面,有着紮實的基礎,這是一般人做不到的。
劉成林忍不住合起論文看了眼名字:陳序。
然後劉成林翻開論文繼續朝下面看……
……
從綜合實驗大樓回來後,陳序便忙碌了起來。
把市面上有關於詞法、語法、語義分析方面書籍統統收集回來,然後逐一錄入到小白的資料庫當中。
小白是強大,不需要告訴它什麼是分詞,詞性,詞的顆粒度,詞所在語句的位置,同義詞,轉意詞等等等等。
但是,未來基於自然語言處理開發出來的翻譯軟件/機器,那是要投入到商業應用當中去的,不可能讓小白充當智腦來翻譯,這也不現實。
所以還是要攻克自然語言處理當中的難題。
比如,怎麼樣才能讓機器理解人類基於情感式的、模糊的語義表達?
這需要小白在當今自然語言處理的研究基礎上,不停的進行推演,破解掉詞法、語法、語義分析的終極密碼。
到時候再進行句法分析、篇章分析、建立語言認知模型等等,會易如反掌,整個自然語言處理中的難題會如同多米諾骨牌一樣轟然倒地。
而他作為小白的「人生導師」,需要引領小白朝某這個方向努力前進,就像之前不停地填充寫作素材庫一樣。
另外,未來軟件開發出來,他要作為「開發者」和來自世界各地的專家學者進行交流的,如果連技術的基本原理都不懂,那也太不像話了。
所以在小白學習的同時,陳序也從人工智能方面的科普性書籍讀起,目的是為了幫助小白更好的成長……