论汉英平行语料平行处理

更新时间:2024-02-07 点赞:20663 浏览:94638 作者:用户投稿原创标记本站原创

平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚熟悉到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。本项研究主要取得了以下几方面成果:第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及种别等等,而且还通过实验具体论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词 名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。第三,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词 名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的很多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。【关键词】:自然语言处理双语语料库汉英平行语料库平行处理自动分词词性消歧词义消歧句法消歧
【论文提纲】:摘要10-11Abstract11-13第1章引言13-231.1平行语料库及相关研究综述13-171.1.1语料库研究及发展概况13-141.1.2平行语料库的建设14-161.1.3平行语料库的利用16-171.2本文的研究意义及价值17-181.2.1建设高质量的汉英平行树库的必要准备171.2.2解决单语处理中的难点问题17-181.2.3建立高质量的金本位资源181.3本文的研究内容及方法18-231.3.1平行处理的含义18-201.3.2研究资源先容20-221.3.3各层面的平行处理研究及实验方法22-23第2章词汇分析的平行处理23-392.1词汇分析研究的现状及难点23-262.1.1汉语词汇分析研究概况23-242.1.2交集型歧义切分的难点24-252.1.3组合型歧义切分的难点25-262.1.4未登录词识别的难点262.2平行处理实验的设计26-342.2.1平行语料的词汇考察26-292.2.2分词歧义的平行处理分析29-312.2.3英语人名的汉译名识别实验设计31-342.3平行处理实验结果的分析34-392.3.1英语人名的汉译名识别实验报告34-362.3.2词汇分析有待研究的问题36-39第3章词性标注的平行处理39-623.1词性标注研究的现状及难点39-413.1.1汉英词性标注研究概况39-403.1.2汉语兼类词标注的难点403.1.3英语兼类词标注的难点40-413.2平行处理实验的设计41-543.2.1平行语料的兼类词考察41-423.2.2汉语兼类词的平行处理实验设计42-503.2.3英语兼类词的平行处理实验设计50-543.3平行处理实验结果的分析54-623.3.1汉语兼类词的平行处理实验报告54-583.3.2英语兼类词的平行处理实验报告58-603.3.3兼类词平行处理有待研究的问题60-62第4章词义标注的平行处理62-834.1词义标注研究的现状及难点62-654.1.1汉英词义标注研究概况62-644.1.2汉语多义词标注的难点64-654.1.3英语多义词标注的难点654.2平行处理实验的设计65-764.2.1平行语料的多义词考察65-664.2.2汉语多义词的平行处理实验设计66-724.2.3英语多义词的平行处理实验设计72-764.3平行处理实验结果的分析76-834.3.1汉语多义词的平行处理实验报告76-784.3.2英语多义词的平行处理实验报告78-814.3.3多义词平行处理有待研究的问题81-83第5章句法结构的平行处理83-1005.1句法结构研究的现状及难点83-875.1.1汉英句法结构研究概况83-855.1.2汉语句法标注的难点85-865.1.3英语句法标注的难点86-875.2平行处理实验的设计87-965.2.1汉英短语结构平行处理分析87-895.2.2汉语“动 名”序列考察89-925.2.3汉语“动 名”序列平行处理实验设计92-965.3平行处理实验结果的分析96-1005.3.1汉语“动 名”序列平行处理实验报告96-995.3.2汉语句法标注有待研究的问题995.3.3英语句法标注有待研究的问题99-100结语100-102主要参考文献102-111附录111-117附录一术语表111-115附录二图表目录115-116附录三PCCE1000统计数据总表116-117攻读博士学位期间的主要科研项目和成果117-118后记118
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~