张利,张立勇,张晓淼,等.基于改进BP网络的中文歧义字段分词方法研究[J].,2007,(1):131-135 |
基于改进BP网络的中文歧义字段分词方法研究 |
Research on ambiguous words segmentation algorithm based on improved BP neural network |
|
DOI:10.7511/dllgxb200701025 |
中文关键词: 文本挖掘 歧义字段 自然语言处理 神经网络 |
英文关键词: text mining ambiguous words natural language processing neural network |
基金项目:国家自然科学基金资助项目(60573172). |
|
摘要点击次数: 795 |
全文下载次数: 944 |
中文摘要: |
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题. 针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库. 以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则. 训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度. |
英文摘要: |
In the text mining, the technology of Chinese automatic word segmentation is a difficult problem that the computer science has to face. Aiming at the characteristics of Chinese writing, such as no space between words, continuous writing in sentences and d |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|