探讨英语融入形态特点英语多词术语自动抽取研究

更新时间：2024-03-05 点赞:10075 浏览:36381 作者：用户投稿原创标记本站原创

摘要：本文从术语研究的语言学视角，提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略，并通过抽取实验对该策略进行了评估。结果表明，形态特征和基于句法规则方法相融合能够显著提高术语的自动抽取效率。研究同时发现，形态特征值能够有效地区分术语和非术语。本研究不仅揭示了语言学知识在术语自动抽取中的作用，同时为以语言学为支撑的自然语言处理研究范式提供了有力支持。
关键词：术语自动抽取；形态特征；多词单位；融入策略
1001-5795（2013）02-0035-0006
术语是专业领域概念的语言指称，是科学技术知识在自然语言中的结晶（冯志伟，2011：1）。由于术语集中体现和负载了学科领域的核心知识，它为自然语言处理提供了结构化知识单元，成为文献标引、信息检索、文本分类、机器翻译等系统的关键组成部分（Ananiadou，1984：1034；Jacquemin&Bourigault，2003），同时也为词典编纂、教材开发以及专业教学提供了重要资源。然而，随源于：科技论文写作www.618jyw.com
着科学技术的快速发展，新术语不断涌现，传统的术语收集方法远不能满足知识管理的需要。如何有效地从文本中自动抽取术语，快速构建大规模、高质量的术语库已成为计算术语学的重要研究内容。依据术语的语言学特征，探索基于大规模语料库的多词术语自动抽取方法成为该研究领域的前沿课题。
形态特征一直是词汇学研究的核心内容，也是普通语言学研究中历史最悠久的领域之一。经过长期的努力，形态学家已在描述词汇构成方式、展示词汇形态模式的多样性、探索形态特征的认知现实性等方面取得了丰硕成果，并为深入揭示形态特征的语言共性构建了坚实的理论框架。尽管这些成果已经部分应用于拼写检查（spell checking）、词干提取（stemming）和句法分析（parsing）等自然语言处理研究领域，但其潜势及价值在知识抽取，特别是术语自动抽取研究中尚未得到充分的挖掘和应用。
本文从术语研究的语言学视角，提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略，并通过抽取实验对该策略进行了测试和评估，旨在探讨形态特征在术语自动抽取中的作用，为以语言学为支撑的自然语言处理研究范式（Wintner，2009）的有效性提供新证据。
1 相关文献综述

1.1 术语的形态特征

术语作为概念实体、语言实体和交际单位的结合体，其多维特征是影响术语自动抽取效率提高的重要因素。就目前研究现状而言，在全面、透彻地了解术语本质的基础上，深入揭示并充分利用术语的形态特征是优化现有术语抽取方法的有效途径之

一、而把握术语和普通词汇之间的形态特征关系是关键。

术语和普通词汇拥有相似的形态结构，但在具体的构成方式上二者呈现明显不同的形态倾向。Sager认为术语最常见的构成方式是对现有语言资源的限定（determination）和修饰（modification），而词缀构词法和复合构词法是其最重要的实现手段，因为他们在限定一个概念的同时也表明了新旧概念之间的关系（1990：72-73）。针对多语种术语形态特征的研究证实了这一论断。这些研究发现，专门用途语言中的语缀比普通语言丰富得多，原因在于专门用途语言倾向于使用数量有限的希腊语和拉丁语前缀、后缀和词干构成大量的派生词和复合词，而这些词汇成分在普通语言中很少使用（Lopez&Ferrandis，1990；Smith et al，1996）。
术语的形态特征研究同时表明，不同类型的希腊、拉丁语缀功能各异。前缀的主要功能在于促进术语结构系统化（Sager，1990：76）。特定的前缀，有助于领域专家对术语进行分类，建立不同的术语集。而后缀在通过限定方式改变词类，发挥句法作用的同时，也表达了概念不同方面的内容以及术语的语义类别（Torii&Liu，2006）。
这些语缀通常被领域专家作为识别和理解本领域术语的依据并成为创建新术语的基础，因而可以被看作是术语的形态标记。如果在现有术语自动抽取方法中融入这些形态信息将会极大提高术语自动抽取的效率。

1.2 术语自动抽取方法述评

现有多词术语自动抽取方法大致可分为基于句法规则和统计驱动两大类（Jacquemin&Bourigault，2003：605）。基于句法规则方法主要根据术语的句法型式相对稳定且种类有限两大特点，通过发现并抽取符合给定句法型式的词语序列，达到多词术语自动抽取的目的（Justeson&Katz，1995）。统计驱动的方法主要依据多词单位在语篇中的频数分布模式，采用多种统计方法揭示术语和非术语不同的统计特征，实现术语的自动识别。Kageura&Umino（1996）提出了统一度（unithood）和术语度（termhood）两个概念分别描述多词术语组成成分之间的连结强度和多词术语与所指称的领域概念之间的相关程度，即多词术语的领域代表性。统一度的测定采用了词语搭配抽取的统计量，包括互信息值（MI）、对数似然值（LLR）和左/右熵。和统一度相比，术语度能更有效地揭示术语的特殊属性。常用方法包括统计多词单位在语篇中的频数，计算Tf*Idf值和通过领域语料库与普通语料库的比较计算多词单位的关键性，如卡方值、对数似然值等。
由于单纯基于句法规则方法和统计驱动方法都存在明显不足，许多研究尝试句法规则和统计驱动相结合的混合策略。实验结果证明，该策略能有效提高术语自动抽取的正确率（Pazienza，Pennacchiotti&Zanzotto，2005：265）。
然而，目前的术语抽取方法对于语缀信息重视不足。虽然这一问题已引起部分研究者的注意并开始了初步探讨（Ananiadou，1994），但主要围绕医学领域的术语抽取，研究设计具有明显的领域针对性，而术语语缀的种类和数量因专业领域的不同存在明显差异（Sa-ger，1990：80）。到目前为止，基于语缀特征进行其他专业领域的术语抽取研究尚未见报道。另外现有相关研究皆以手动方式预先构建的医学语缀词典作为知识资源，研究方法的可移植性和研究结果的领域普适性都存在很大的局限。本研究采用语料库的方法，探讨基于术语样本自动构建领域术语语缀词典，并将其和现有术语抽取方法相融合进行术语自动抽取的可行性及这一形态特征融人策略的优势。优秀论文查重www.618jyw.com
源于：论文提纲格式www.618jyw.com