汉语语偏误计算机处理策略探讨

更新时间:2024-02-14 点赞:13485 浏览:58025 作者:用户投稿原创标记本站原创

本文的研究目标是让计算机辅助人来处理汉语语中的偏误。辅助的方式有四种:偏误的自动识别及提示;偏误的交互式识别及提示;偏误的自动标注;偏误标注的自动管理和检索。其中自动识别及提示的智能性最高,是本文研究的重点,其处理过程首先是自动发现偏误,在发现的基础上,计算机还可以进一步在不同程度上给出提示:直接修改、给出修改建议、指出偏误原因或提出疑问。目前,有关计算机查错的研究领域中,只有英语拼写检查技术比较成熟,汉语字词错误的校对系统刚刚达到具有实用价值的水平,其他方面的应用技术还在研究过程中,汉语语偏误的计算机处理还没有见到有相关研究成果发表。本文的工作集中在以下三方面:第一,面向计算机进行了偏误分析的理论研究。分析了计算机的优点和局限性,结合HSK动态作文语料库的偏误标注体系以及《外国人学汉语语法偏误分析》中的偏误种别体系,根据计算机处理自然语言的能力及所需知识,对各类偏误自动识别及提示的可行性进行了分析,特别指出语法偏误自动识别及提示的可行性较强,提出了计算机进行偏误处理的指导思想。第二,进行了偏误自动识别及提示的实践研究。依据出错率较高、可形式化程度较高等标准,选择了“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型偏误作为切入点,采用规则的方法进行了偏误自动识别及提示的实验,通过与人工标注的结果相比较,证实了计算性能够在这些特殊句型偏误的识别和提示方面发挥很好的辅助作用。第三,进行了偏误自动标注的实践研究。利用了经典的求解字符串间编辑间隔的算法,以汉语的词为单位通过进一步求解仿人的编辑路径发现修正原句所需要的基本编辑操纵,从而实现了原句和修正句的自动比对。此外,基于自动比对的结果还让计算机在一定程度上介入偏误的归类。这样,能够较好地弥补偏误人工标注的缺陷,体现了人机的上风互补。与以往的一些相关研究比较起来,本文工作的创新性体现在:(1)研究侧重点在汉语的偏误分析方面,以往的研究是面向人的,目的是寻找让学生减少、避免偏误的教学策略;本文的研究是面向计算机的,目的是寻找让计算机自动或半自动地识别、修正偏误的方法。在汉语的语语料库建设方面,以往的工作主要是人工标注偏误;本文的研究是探讨如何让计算机尽可能地介入其中,与人形成上风互补。在中文文本查错方面,以往的研究针对的是汉语母语写作中出现的偶然性错误;本文的研究针对的是汉语非母语写作中出现的规律性偏误。在计算机辅助汉语教学方面,以往的研究热衷于计算机如何向学生单向地传授知识;而本文的研究重点是计算机如何对学生输入的信息给出反馈。(2)技术思想分析了计算机处理自然语言的能力以及处理各类偏误的能力,提出了利用计算机处理偏误时应遵循的指导思想。(3)技术方法基于HSK动态作文语料库,对“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型的各种偏误做了具体分析,给出了识别及提示的规则,实验结果表明有较高的识别正确率和召回率。提出了采用编辑间隔算法进行偏误自动标注的方法,实验证实能明显提高标注的质量和速度。本文的意义在于:理论方面,探讨了计算机辅助语言教学的可能性,既不能停留在简单的多媒体教学手段方面,又不能希冀计算性能全自动地处理各类偏误,而是实事求是地指出在这一领域计算性能力所及的范围。此外,面向计算机进行偏误分析为汉语语法研究、对外汉语教学研究提出了新的关注视角。应用方面,本文提出的方法可以辅助教师教学,减轻教师的负担;可以辅助科研职员进行语语料库的标注,提高标注的质量和速度;可以辅助有一定汉语基础的学生自学;有助于提高汉语作文评分的自动化程度。【关键词】:语偏误偏误分析偏误自动识别及提示编辑间隔
【论文提纲】:摘要3-5Abstract5-10第一章引论10-201.1计算机辅助语言教学101.2语和偏误10-111.3研究目标11-121.4相关研究12-181.4.1汉语语偏误分析12-131.4.2汉语语语料库建设13-141.4.3计算机查错研究14-171.4.4计算机辅助语言教学系统研发17-181.4.5本文工作与各相关研究的比较181.5研究意义18-191.6全文组织19-20第二章面向计算机的偏误分析20-492.1计算机处理自然语言的能力20-232.1.1两类计算问题20-212.1.2自然语言处理的定位21-232.2计算机所需的知识23-272.2.1语料23-252.2.2电子词典25-272.2.3规则272.3偏误自动识别及提示的可行性分析27-432.3.1偏误的定性问题27-282.3.2HSK作文库中各类偏误自动识别及提示的可行性分析28-302.3.3常见语法偏误自动识别及提示的可行性分析30-412.3.4可行性分析小结41-432.4偏误识别实验的定位43-492.4.1查错对象范围的限定43-462.4.2查错能力的定位46-472.4.3应用领域的定位47-49第三章工具、资源、知识准备49-553.1工具493.2资源493.3各类列表的自动获取49-513.3.1从北大词典中直接筛选503.3.2从语料库中自动抽取503.3.3词典、语料库双方获取50-513.4正则表达式51-55第四章"把"字句偏误的自动识别及提示55-754.1语言学知识总结55-594.1.1句式特点55-584.1.2常见病句分析58-594.2HSK作文库中"把"字句偏误的细分类59-634.2.1小类划分59-624.2.2分类总结62-634.2.3研究范围634.3识别模式及规则63-704.3.1识别模式63-674.3.2识别规则67-704.4实验结果及分析70-754.4.1实验步骤704.4.2实验结果70-724.4.3结果分析72-75第五章"比"字句偏误的自动识别及提示75-885.1语言学知识总结75-765.1.1句式特点75-765.1.2常见病句分析765.2研究范围76-775.3识别模式及规则77-845.4实验结果及分析84-885.4.1实验步骤84-855.4.2实验结果85-865.4.3结果分析86-88第六章"有"字句偏误的自动识别及提示88-1036.1语言学知识总结88-896.1.1"有"字句的界定886.1.2句式特点88-896.1.3常见病句分析896.2HSK作文库中"有"字句偏误的细分类89-956.3识别模式95-996.4实验结果及分析99-1036.4.1实验步骤996.4.2实验结果99-1006.4.3结果分析100-103第七章"被"字句偏误的自动识别及提示103-1177.1语言学知识总结103-1067.1.1句式特点103-1047.1.2常见病句分析104-1067.2HSK作文库中"被"字句偏误的细分类106-1097.2.1小类划分106-1087.2.2分类总结108-1097.3识别模式及规则109-1147.3.1识别模式109-1117.3.2识别规则111-1147.4实验结果及分析114-1177.4.1实验步骤1147.4.2实验结果114-1157.4.3结果分析115-117第八章偏误标注方法研究117-1308.1人工标注的缺陷117-1188.2自动标注方法118-1198.3基于编辑间隔算法的中文句子自动比对119-1268.3.1编辑间隔算法119-1208.3.2编辑路径的求解120-1238.3.3中文句子自动比对123-1268.4偏误自动归类的可行性分析126-1288.5偏误自动归类的目的128-1298.6本章小结129-130第九章结语130-1369.1全文工作总结130-1339.1.1研究内容总结130-1319.1.2可取之处131-1329.1.3不足之处132-1339.2下一步工作133-136参考文献136-140附录140-157附录1140-151附录2151-152附录3152-157博士期间发表论文157-158致谢158
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~