基础教育资源搜索引擎中中文分词技术探讨

更新时间：2024-02-08 点赞:32189 浏览:146962 作者：用户投稿原创标记本站原创

自动分词技术是自然语言处理的基础工程。任何基于词一级的中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词的识别。本文结合基础教育资源搜索引擎项目工程，提出了中文分词在该项目中的解决方案。对歧义词的处理，本文统计高频特征词的构词特点，提出并采用了“高频特征词”消歧义的办法，同时系统实现时辅助以“统计汉字二元语法关系”的方法来解决交集歧义的问题。对姓名的处理，本文主要是结合统计与规则两种方法各自的优点，统计语料库，并对这些姓名用字进行分析，提出了自己的分类策略。采用分词碎片识别中文姓名法，对常见的姓名识别率达到90％左右。对其它未登录词的处理，本文尝试采用高频重复词自动识别，能把每篇文章中出现的高频未登录词统计出来(匹配次数、文章篇数)，然后根据权重计算，计算性能把它自动加入到词库，从而可以自动的扩充主词库的容量。本文最后对分词系统的构架、流程、接口设计进行了阐述。【关键词】：中文信息处理中文分词歧义未登词
【论文提纲】：摘要5-6ABSTRACT6-7前言7-91、研究背景7-82、主要研究的内容83、研究的成果84、创新之点85、本文的组织结构8-9第一章中文分词概述9-151.1中文分词技术的发展9-101.2中文分词技术的分类10-111.3分词技术的关键点11-121.4中文分词的困难12-131.5中文分词与搜索引擎13-15第二章高频特征词与歧义词处理15-222.1歧义的分类及现有的处理的方法15-162.2以特征词为标记的交集歧义切分16-222.2.1高频特征词的概念172.2.2交集歧义类型分析17-182.2.3含高频特征词的歧义词串处理策略18-212.3.4实验数据21-22第三章中文分词技术与未登录词处理22-363.1现有未登录词处理技术22-233.2中文姓名识别处理策略23-313.2.1关于姓名的统计25-263.2.2关于用名的统计26-273.2.3关于姓名后常用词的统计27-283.2.4中文姓名识别过程中碰到的几种类型283.2.5中文姓名识别处理办法28-313.3高频未登录词的识别处理策略31-363.3.1研究现状313.3.2数据结构定义31-323.3.3用来存贮高频词的Hash表323.3.4算法思想流程描述32-343.3.5高频词的处理34-353.3.6高频未登录词实验35-36第四章中文分词系统的设计与实现36-464.1系统框架设计36-414.1.1功能描述：364.1.2机械匹配分词算法：36-384.1.3分词系统结构图：384.1.4类模块先容及类图设计38-414.2模块流程图41-424.2.1歧义识别模块流程图414.2.2未登录词程序模块流程图41-424.3分词接口设计42-464.3.1接口设计主要考虑因素：424.3.2用户调用分词动态库方法：42-434.3.3分词构造函数重载说明：43-444.3.4分词测试界面444.3.5分词系统的评价44-46结语46-481、本文总结46-472、下一步的任务47-48参考文献48-50致谢50-51附录51-54