我們進入了大數(shù)據(jù)時代(big data era),我國的中文信息處理有了長足的進步,除了傳統(tǒng)的基于規(guī)則的中文信息處理之外,在基于統(tǒng)計的中文信息處理、基于神經(jīng)網(wǎng)絡的中文信息處理以及知識圖譜等方面也取得了顯著的成績。我國的中文信息處理成為了全世界自然語言處理(Natural Language Processing,NLP)的不可分割的組成部分,在全世界自然語言處理的頂級會議中,我國學者都是積極的參與者或會議的組織者。作為《中文信息處理與漢語研究》的姐妹篇,《大數(shù)據(jù)時代的自然語言處理》結合中文信息處理的實踐,分為四個章節(jié),除了第一章的概述之外,后面三個章節(jié)分別介紹了大數(shù)據(jù)時代的統(tǒng)計機器翻譯、神經(jīng)網(wǎng)絡模型和神經(jīng)機器翻譯、知識圖譜等內(nèi)容。最近,我國正在現(xiàn)有傳統(tǒng)文科的基礎上,進行學科中專業(yè)課程的重組,建設文文交叉、文理交叉的新文科。中文信息處理把現(xiàn)代信息技術融入到語言學中,是文理交叉的新文科建設的最佳范例,希望本書的出版,能為我國新文科的建設助一臂之力。
漢語知識從書是商務印書館推出的雅俗共賞的知識性讀物。它由我國著名語言學家撰寫,既有一般的漢語知識介紹,又有語言學方面的科研成果;既體現(xiàn)出學術性,又兼顧到通俗性,是大專院校文科師生及語言文字工作者常備的參考書。
上世紀90年代,馮志偉老師就介紹了中文信息處理和語言研究相結合的研究方法,30年過去了,中文信息處理已經(jīng)成為語言學研究的一個分支。把現(xiàn)代信息技術融入到語言學,已經(jīng)是漢語研究不可缺少的建設。
馮志偉,1939年生,云南省昆明市人,先后在北京大學和中國科學技術大學研究生院兩次研究生畢業(yè),獲雙碩士學位。1978年到法國格勒諾布爾理科醫(yī)科大學應用數(shù)學研究所自動翻譯中心師從法國著名數(shù)學家、國際計算語言學委員會主席沃古瓦(B.Vauquois)教授專門研究數(shù)理語言學和機器翻譯問題。1981年回國,在中國科學技術信息研究所計算中心擔任機器翻譯研究組組長。1985年調入國家語言文字工作委員會語言文字應用研究所,擔任計算語言學研究室主任。曾在德國夫瑯禾費研究院新信息技術與通信系統(tǒng)研究所擔任客座研究員,在德國特里爾大學語言文學院擔任客座教授,在德國康斯坦茨高等技術學院國際術語學和應用語言學中心擔任技術顧問,在韓國科學技術院電子工程與計算機科學系擔任訪問教授。現(xiàn)為國家教yu部語言文字應用研究所研究員、博士生導師、學術委員會委員,新疆大學天山學者,中國計算機學會高級會員,中國人工智能學會理事、中國中文信息學會會士。曾獲得中國計算機學會NLPCC杰出貢獻獎、奧地利維斯特獎、香港圣弗蘭西斯科技人文獎。用中文和外文出版專著54部,發(fā)表中文論文500余篇,外文論文近100篇。
前言
第一章 概述
第二章 從基于規(guī)則的機器翻譯到統(tǒng)計機器翻譯
第三章 神經(jīng)網(wǎng)絡模型與大語言模型
第四章 知識圖譜
參考文獻