第一章 緒 論
所謂聚類分析,就是用數學的方法對事物按一定的要求進行分類。在模糊數學產生之前,聚類分析已是數理統計多元分析的一個分支,有著廣泛的實際應用。聚類的實質就是把具有相似性質的事物區(qū)分開來,傳統的聚類分析是一種硬劃分,即把每個待辨識的對象嚴格地劃分到某類中,具有非此即彼的性質。然而在現實世界中,特別是在社會、經濟、哲學、心理、教育等人文學科當中,大多數對象并沒有嚴格的類屬特性,它們在性態(tài)和類屬方面存在著位于兩個極點之間的中間狀態(tài),即具有亦此亦彼的性質,國外有人把這些學科稱為軟科學,因此更適合進行軟劃分。事實上,這些學科之所以難于運用數學,不是因為它們太簡單而沒有資格運用數學,恰恰相反,是因為它們所面對的系統太復雜而找不到適當的數學工具。其中最關鍵的問題就是在這些系統中大量存在模糊性。當模糊理論由美國系統控制論專家扎德(L.A.Zadeh)于1965年首次提出后,模糊數學的一條重要的歷史使命就是要為各門學科、尤其是人文學科提供新的數學描敘的語言和工具,使軟科學研究定量化。在這樣的背景下,模糊聚類分析法也就應運而生了。
應用模糊數學的理論和方法,在模糊相似關系的基礎上所進行的聚類分析,稱為模糊聚類分析。模糊聚類分析的基本思想是:首先將所研究的n個樣本各自分為一類,然后計算它們之間的相似程度或距離,并將最相似(或距離最短)的兩類歸為新的一類,如此反復進行,直到所有樣本都歸為一類為止。迄今為止,模糊聚類分析法已在諸多領域得到了廣泛應用,比如模式識別、圖像處理、信道均衡、天氣預報、災害預測、環(huán)境保護、食品分類、地質研究、石油與天然氣勘探、工程設計、經濟管理、醫(yī)學診斷等等。
人文學科對模糊聚類分析法的應用較少,因為人文學科中的研究對象一般不是用數據信息來刻畫的,這一點不同于自然學科,也成了我們選用數學方法來進行研究的障礙。一旦我們意識到這個問題,就可以想辦法將研究對象具有模糊性的表征信息數量化,從而為傳統的研究方法開辟新的道路。
模糊聚類分析法要求以模糊相似關系為前提,我們認為,語言中的同義詞就符合條件,即從模糊數學的視角來看,詞語之間的同義關系首先是一種模糊關系,其次它具有自反性和對稱性,屬于模糊相似關系,可以嘗試使用模糊聚類分析法。本書以此為切入點,重點論述了對語言學當中的詞匯現象使用模糊聚類分析法的可行性,以及使用這種新方法獲得的不同
以往的新發(fā)現。
模糊聚類分析法原則上適用于語言中所有的同義詞,本書選擇古代漢語同義詞作為研究對象,現代漢語同義詞的模糊聚類分析是我們下一步的研究目標。對同義詞進行模糊聚類分析,我們認為主要有以下幾個方面的意義和價值。
首先,可以揭示出同義詞聚合的層次性。以往對同義詞的研究只停留在判斷某詞與某詞是否具有同義關系上,通過對同義詞進行模糊聚類分析,我們可以發(fā)現,處于同一個同義聚合體中的各個詞語,它們相互之間的聚合并不在同一平面上,而是有著不同的層次。模糊聚類分析法不僅揭示出了這種聚合層級的存在,而且還可以確定出每一層的聚合水平值,使我們能夠對詞語的同義現象有更為深入的認識,這對漢語詞匯研究本身是一個補充和突破。
其次,研究詞語的聚合可以為詞語的組合提供選擇。組合關系的每個位置上可能會出現的詞要到有關的聚合里去選擇,一般而言,組合上的不同要從聚合上去找原因。在同義詞這個聚合體中,并不是每個成員都能出現在不同組合關系的同一位置上,這是因為同義詞之間存在著差異。通過對同義聚合體中的詞語進行義素分析,我們可以清楚地看到這種差異并分
析造成這種差異的原因,進而滿足不同組合的需要。
最后,可以用數值精確表示出同義詞之間的相似程度,從而幫助計算機處理語言信息服務。在機器翻譯和信息檢索領域,同義詞之間的差異規(guī)定著詞語在翻譯和檢索中可以相互替換的程度:差異大的,詞語可替換的程度就低;差異小的,詞語可替換的程度就高。這種差異實際上反映了同義詞之間的相似程度。我們對該相似程度進行了量化和形式化的描述,這樣就可以把自然語言轉化為機器能夠識別的形式語言,從而實現計算機對同義詞的信息處理。
……