利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞
Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model
-
摘要: 該文探討了利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞的問題。采用了多次迭代的方法來進(jìn)行漢語詞層面統(tǒng)計語言模型的訓(xùn)練。該方法能夠得到更優(yōu)化的語言模型。該文詳細(xì)介紹了統(tǒng)計語言模型的訓(xùn)練過程,給出了語言模型復(fù)雜度隨迭代次數(shù)增加而減小的實驗結(jié)果。還給出了在不同的統(tǒng)計語言模型階數(shù)下切分正確率變化的情況,分析了切分正確率變化的原因。
-
關(guān)鍵詞:
- 統(tǒng)計語言模型; 覆蓋歧義檢測法; 自動分詞
Abstract: In this paper, the question of Chinese automatic segmentation is discussed using overlaying ambiguity examining method and statistics language model. The multi-time iterative method is applied to train language model, which can produce a better model. The process of training language model is described in detail. The result shows that the perplexity of language model is reduced. The accuracy of segmentation changes with different language model and the reason is analyzed. -
劉開瑛,中文文本自動分詞和標(biāo)注,上海,商務(wù)印書館,2000,30-41[2]陳小菏,現(xiàn)代漢語自動分析,北京,北京語言文化大學(xué)出版社,1999,60-62.[3]馬晏,基于評價的漢語自動分詞系統(tǒng)的研究及實現(xiàn),語言處理專論,北京,清華大學(xué)出版社,1996,80-105.[4]侯敏,孫建軍,陳肇雄,漢語自動分詞的歧義問題,計算語言學(xué)進(jìn)展與應(yīng)用,北京,清華大學(xué)出版社,1995,40-43.[5]沈達(dá)陽,孫茂松,基于統(tǒng)計的漢語分詞模型及其實現(xiàn)方法,BYTE China,重慶,1998,2(2),38-40[6]孫茂松等,高頻最大交集型歧義切分字段在漢語自動分詞中的運用,中文信息學(xué)報,1999,13(1),60-62.[7]王雪松,漢語語言的多層面優(yōu)化統(tǒng)計語言模型研究,[碩士論文],中科院聲學(xué)所,1997,13-15.[8]張瑞強,用于漢語連續(xù)語音識別中的語言模型的研究,[博士論文],清華大學(xué),1997,20-27. -
計量
- 文章訪問數(shù): 2396
- HTML全文瀏覽量: 114
- PDF下載量: 485
- 被引次數(shù): 0