|.|企劃書很厚.兩三百頁.內容寫得很詳細.
肖遠在翻看的時候.並沒有去逐字逐句的讀.實際上也沒有那個必要.他隻需要通過企劃書.把握其中的脈絡和關鍵.對唐新宇和顧狼的想法有所瞭解就行瞭.好在企劃書雖然厚.但是條理很清楚.所以肖遠讀起來也不費事.
在肖遠把企劃書讀到一半的時候.楊靜宸在外邊喊他吃飯.於是他暫停瞭閱讀.起身出門吃飯去瞭.
吃過飯後.他跟隨老媽去瞭書房.想要問她一些事情.
“怎麼.還要媽幫你做什麼.”書房裡.楊靜宸問道.很顯然.她以為肖遠還要說開源社區的事情.
“不是.我想問問.您對中文自然語言處理知道多少.實驗室有沒有誰在研究這個.”肖遠問道.
“為什麼想起問這個瞭.”楊靜宸問道.
“玄涅公司準備做一個全文搜索引擎.目的是想讓用戶通過在搜索框輸入日常用的語言.搜索引擎應該能夠自動對他們的語言進行分析理解.然後從網絡上海量的網頁中搜索到他們想要的信息.這裡面需要用到自然語言處理.”肖遠說道.
“全文搜索引擎.”楊靜宸眼前一亮.由衷道.“這個想法好啊.如果能做成.比玄涅現在主要經營的玄涅防火墻.更有前景.更容易做成大產業.”
“是的.我們也是看到瞭這一點兒.但是這其中有一些既需要理論支持.又需要大量基礎工作的東西.自然語言處理也在其中.而且很重要.您不是人工智能專傢嗎.所以我才想到問問您.”肖遠說道.
“自然語言處理嚴格來說.應該是一個以人工智能為核心的跨學科研究方向.它牽涉到的.不僅僅是計算機和人工智能.還牽涉到語言學.心理學等其他社會學分科.雖然這個學科在西方起源挺早.四十年代就有瞭.但是自然語言系統太過復雜.所以.直到現在.全世界范圍內.也沒有什麼突破性進展.”
楊靜宸顯然對這個領域很熟悉.給肖遠介紹瞭一下當前國際上關於這方面的研究情況.然後又說瞭國內的研究情況:“咱們國內對這方面的研究.相比國外.還處於一個水平更低的基礎信息積累階段.一方面是因為國內的起步比西方晚.二來.是因為.中文和西方拉丁語系的那些語言有很大不同.拉丁語系是拼音語系.而且句式本身就是結構化的.所以計算機處理起來也相對容易.但是中文卻是一種古老的象形文字.句式靈活隨意.充滿瞭各種虛詞助詞.想將這樣的語言轉化成計算機可以分析處理的形式.本身就是一個很大的難題.”
“嗯.這倒是事實.那麼咱們國傢現在的研究狀況究竟是什麼樣子的.”聽瞭老媽的話.肖遠稍稍有些失望.前世他也隻是稍稍關註過這方面的理論.具體的細節瞭解也不是太多.於是就想更深入的瞭解一些.
“現在國內進行這方面研究的.主要是幾個大學.其中京華大學的研究比較前沿.國內其他大學在這方面的研究.也大都在配合京華大學的研究.做一些基礎詞庫整理工作.媽的實驗室也有人在做這方面的研究.主要承擔的是H到P的詞匯整理建庫工作.目前完成度已經到百分之八十瞭.”楊靜宸說道.
聽瞭楊靜宸的介紹.肖遠說道:“基礎詞庫大概什麼時候能夠建好.”
“這個很難估計.”楊靜宸說道.說完看到肖遠眉頭皺瞭起來.又說道.“你要真的想在搜索引擎中使用自然語言處理算法.媽倒是能給你一些建議.”
肖遠用詢問的目光看著老媽.等著她繼續.
“人們要利用你說的搜索引擎在網上檢索信息的話.我想他們用的最多的.肯定不會是完整的句子.而是一些關鍵詞.或者一些短句.僅僅分析關鍵詞和短句的話.難度就沒有那麼大瞭.而且你也沒必要一下子就把產品做的那麼完美.人們以前從來沒有接觸過這樣的產品.所以.隻需要一些簡單的智能性.就足以對用戶產生足夠的吸引力瞭.”楊靜宸說道.
肖遠點瞭點頭.說道:“這個我自然是知道的.不過咱們國內的研究狀況讓我有些失望罷瞭.第一版肯定不能一下子往裡面放太多的東西.隻需要做出一個基本的東西.然後根據用戶的反饋和新技術的成熟.再擴充.讓它越來越完善.這好像是軟件工程上有名的XP編程.”
“你知道XP編程.”
楊靜宸卻是因為肖遠提到XP編程(此處的XP指的是eXtremeProgramming的簡寫.極限編程的意思.而indosXP中的XP指的是experience的簡寫.意思是體驗.而且99年還沒有indosXP之說.)感到很驚訝.大概是想不到肖遠還會去看軟件工程方面的書吧.更何況XP開發方法還是近幾年才有人提出來的一種很新的方法.
“瞭解一些.”肖遠卻是沒有想到自己隨口的一句話.都能讓老媽感到驚訝.於是就把話題又拉回瞭正題.說道.“媽.我倒有個想法.”
“什麼想法.”楊靜宸問道.
“我想讓玄涅搜索和你的人工智能實驗室進行深度合作.一方面.你們能夠從玄涅得到一定的資金支持.而且你們還可以利用玄涅搜索所采集的海量網絡信息資源.另一方面.玄涅也能夠第一時間將你們的研究成果應用到自己的產品中.提升公司的技術含量.我認為這是一件雙贏的事情.”肖遠說道.
“學校科研和企業合作.盡快轉化成生產力.是咱們國傢一直提倡的.人工智能實驗室這些年.也一直在尋求與企業合作.聯合研發.所以.如果玄涅想要合作的話.實驗室當然歡迎瞭.”楊靜宸說道.
“那好.等時機成熟後.我讓唐新宇和你們談.具體過程我就不參與瞭.”肖遠說道.
…………
和老媽又聊瞭一會兒.肖遠再次回到瞭自己的房裡.把企劃書看完.思索片刻.他拿出紙筆.開始構思玄涅搜索引擎的技術架構瞭.
PS:這幾章需要講一些技術方面的知識.為瞭保證不出現什麼紕漏.綠茶需要思考很多東西.查很多資料.寫的很慢.很費腦.
今天仍然三更.第二更送到.