利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞

王顯芳; 杜利民

一级黄色片免费播放|中国黄色视频播放片|日本三级a|可以直接考播黄片影视免费一级毛片

留言板

尊敬的讀者、作者、審稿人, 關(guān)于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復(fù)。謝謝您的支持!

姓名

郵箱

手機號碼

標(biāo)題

留言內(nèi)容

驗證碼

利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞

王顯芳, 杜利民

文章導(dǎo)航 > 電子與信息學(xué)報 > 2003 > 25(9): 1168-1173

王顯芳, 杜利民. 利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞[J]. 電子與信息學(xué)報, 2003, 25(9): 1168-1173.

引用本文:

王顯芳, 杜利民. 利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞[J]. 電子與信息學(xué)報, 2003, 25(9): 1168-1173.

Wang Xianfang, Du Limin. Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model[J]. Journal of Electronics & Information Technology, 2003, 25(9): 1168-1173.

Citation:

Wang Xianfang, Du Limin. Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model[J]. Journal of Electronics & Information Technology, 2003, 25(9): 1168-1173.

王顯芳, 杜利民. 利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞[J]. 電子與信息學(xué)報, 2003, 25(9): 1168-1173.

引用本文:

王顯芳, 杜利民. 利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞[J]. 電子與信息學(xué)報, 2003, 25(9): 1168-1173.

Citation:

利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞

計量
- 文章訪問數(shù): 2396
- HTML全文瀏覽量: 114
- PDF下載量: 485
- 被引次數(shù): 0
出版歷程
- 收稿日期: 2002-03-19
- 修回日期: 2002-08-09
- 刊出日期: 2003-09-19

Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model

摘要

摘要: 該文探討了利用覆蓋歧義檢測法和統(tǒng)計語言模型進(jìn)行漢語自動分詞的問題。采用了多次迭代的方法來進(jìn)行漢語詞層面統(tǒng)計語言模型的訓(xùn)練。該方法能夠得到更優(yōu)化的語言模型。該文詳細(xì)介紹了統(tǒng)計語言模型的訓(xùn)練過程,給出了語言模型復(fù)雜度隨迭代次數(shù)增加而減小的實驗結(jié)果。還給出了在不同的統(tǒng)計語言模型階數(shù)下切分正確率變化的情況,分析了切分正確率變化的原因。
- 統(tǒng)計語言模型; 覆蓋歧義檢測法; 自動分詞
Abstract: In this paper, the question of Chinese automatic segmentation is discussed using overlaying ambiguity examining method and statistics language model. The multi-time iterative method is applied to train language model, which can produce a better model. The process of training language model is described in detail. The result shows that the perplexity of language model is reduced. The accuracy of segmentation changes with different language model and the reason is analyzed.

HTML全文

參考文獻(xiàn)(1)

劉開瑛,中文文本自動分詞和標(biāo)注,上海,商務(wù)印書館,2000,30-41[2]陳小菏,現(xiàn)代漢語自動分析,北京,北京語言文化大學(xué)出版社,1999,60-62.[3]馬晏,基于評價的漢語自動分詞系統(tǒng)的研究及實現(xiàn),語言處理專論,北京,清華大學(xué)出版社,1996,80-105.[4]侯敏,孫建軍,陳肇雄,漢語自動分詞的歧義問題,計算語言學(xué)進(jìn)展與應(yīng)用,北京,清華大學(xué)出版社,1995,40-43.[5]沈達(dá)陽,孫茂松,基于統(tǒng)計的漢語分詞模型及其實現(xiàn)方法,BYTE China,重慶,1998,2(2),38-40[6]孫茂松等,高頻最大交集型歧義切分字段在漢語自動分詞中的運用,中文信息學(xué)報,1999,13(1),60-62.[7]王雪松,漢語語言的多層面優(yōu)化統(tǒng)計語言模型研究,[碩士論文],中科院聲學(xué)所,1997,13-15.[8]張瑞強,用于漢語連續(xù)語音識別中的語言模型的研究,[博士論文],清華大學(xué),1997,20-27.

相關(guān)文章

施引文獻(xiàn)

資源附件(0)

訪問統(tǒng)計