基于自组织映射期刊主题探讨

更新时间:2024-04-05 点赞:23135 浏览:105641 作者:用户投稿原创标记本站原创

学术期刊是科学交流的重要载体。随着科学的发展与人类知识的积累,学术期刊及其刊载论文的数量一直保持快速增长的趋势。期刊数量的不断增长必然导致期刊内容的交叉重复,同一学科或研究领域内可能包括很多期刊,如何从主题的角度有效地、利用并管理学术期刊受到很多机构与个人的关注。早期人们对期刊数量的关心也逐渐转化为对期刊主题内容的留意。期刊主题研究具有重要的学术意义与实践价值,它可以为图书馆等机构有效采购学术期刊、新进入的研究者选择研究方向、研究者选择与其研究内容相关的期刊进行投稿、学术期刊制定相应的发展策略以及科研政策与资助计划的制定提供有意义的参考。学术期刊通常涉及大量的主题,这种高维数据的特点使得期刊主题研究开展起来不太轻易。鉴于此,本文将采用一种可视化的降维方法,即自组织映射(SOM)人工神经网络方法来研究期刊主题,使高维的期刊主题数据显示在低维的SOM空间中,便于研究者观察期刊主题的特点。本文共分为七个部分:1.期刊主题研究的理论基础本章阐述了期刊主题研究的对象、主要内容、研究方法以及走向与趋势。期刊主题研究的对象主要有两种,即期刊及其主题。其研究内容可归纳为八个方面:①期刊主题标引研究,②期刊主题的聚类研究,③特定种别的主题在期刊中的分布研究,④基于主题的期刊分类与聚类研究,⑤特定期刊的主题构成分析,⑥不同国家与地区的期刊主题比较研究,⑦期刊主题热门分析,⑧期刊主题发展趋势研究。期刊主题研究的方法主要是文献计量学方法、内容分析法与专家调查法。潜在语义分析、多维标度以及人工神经网络方法也可用于期刊主题研究。期刊主题研究的发展趋势可归纳为以下几点。首先,期刊主题研究的方法迫切需要从现有的大量繁琐的统计分析工作中解脱出来,引入能有效处理高维数据的新方法。其次,研究内容需要拓展,包括对期刊主题的聚类以及基于主题的期刊聚类等内容。最后,期刊主题研究的层次需要进一步提升。例如,在期刊主题发展趋势研究方面,需要研究如何丈量|教学论文网|期刊主题整体随着时间变化的程度,而不是仅限于统计归纳个别主题随时间发展的状况。2.自组织映射用于期刊主题研究的方法论本章描述了自组织映射(SOM)的原理,比较了两种主要学习算法的优缺点与适用条件,归纳了SOM的几种显示方式,讨论了三种性能较好的SOM软件工具,设计并具体阐述了SOM用于期刊主题研究的方法。SOM是一种无指导学习的人工神经网络方法,其学习算法主要是序列学习与批学习算法,U-matrix图和成分图是两种常见的SOM输出形式。三维输出较平面输出而言,可以避免“边沿效应”,具有更高的正确性。通过广泛调查与试用,笔者发现SOMToolbox,ViscoverySOMine和DatabionicESOMTools是三种性能较好的SOM软件工具,并采用SOMToolbox作为本文的研究工具。为了利用SOM进行期刊主题研究,笔者定义了四种SOM输入矩阵,在Ultsch于2003年定义的U-matrix基础上进行修改,提出一种新的增强型U-matrix。此外,笔者提出了四种新的SOM输出方式,即综合成分图、属性叠加矩阵、属性方差矩阵以及关键属性投影,并具体阐述了它们的定义、原理以及在本文的期刊主题研究中的应用方法。3.期刊主题聚类研究本章旨在利用SOM算法对期刊的主题进行聚类,天生|教育论文网|等级式的主题目录,为用户查找相关主题、浏览相关文献或改进搜索术语提供建议。笔者以53种与图书情报领域相关的英文期刊为样本,抽取它们在2007年的主题,构造了主题-期刊输入矩阵,利用SOM算法对该矩阵进行练习,将2330个主题映射到163个SOM非空结点上。通过比较自定义的增强型U-matrix与Ultsch于2003年定义的U-matrix应用于练习结果的显示效果,验证了第2章提出的新的增强型U-matrix的有效性与先进性。根据结点的相邻性,将SOM结点中的主题聚为21个类,例如计算机信息管理、计算机信息系统、教育等,分析了各个主题聚类的大小与分布特点,并评价了聚类的效果。最后,笔者将主题聚类的结果与相关研究者的研究结果进行了比较。4.期刊主题的热门分析本章旨在发现期刊的热门主题以及这些热门主题在期刊中的分布状况。笔者将属性叠加矩阵应用于第3章的SOM练习结果,识别这53种期刊在2007年的热门主题。结果发现,固然这些期刊广泛涉及大量的主题,但热门主题仅占全部主题数量的1.1,主要集中在图书馆、计算机信息系统、教育、企业信息化等领域。笔者将热门主题的分析结果与国内相关研究者的研究结果进行了比较,发现了国内外图书情报期刊在热门主题上的异同点。接着,笔者选择了三种重要期刊,分析了它们的热门主题。最后,通过分析图书馆、信息技术与管理信息化这三类热门主题对应的综合成分图,揭示这三类热门主题主要分布的期刊。5.期刊的主题相似性与差异研究本章旨在利用SOM算法根据期刊的主题对期刊进行聚类,识别使期刊之间产生主要差异的关键主题,并确定各期刊聚类的主题特点。笔者构造了期刊-主题输入矩阵,利用SOM算法对该矩阵进行练习,将53种期刊映射到140个SOM结点上。通过分析自定义的增强型U-matrix图,结合结点的相邻程度,将期刊聚成19个类,并对聚类效果进行了评价。然后,笔者将属性方差矩阵应用于第2章对主题-期刊矩阵的练习结果,识别使期刊之间产生主要差异的关键主题;将期刊SOM输出投影到由图书馆类、信息技术类与管理信息化类这三组主题形成的三维空间中,从而分析各期刊聚类的主题特点。6.期刊主题发展趋势研究本章旨在利用SOM算法确定期刊主题整体在一段时间内变化的程度,分析主题的时序活跃性以及活跃主题的变化趋势。笔者以JournalofInformationScience(JIS)从1981-2007年的主题数据为样本,构造了年份-主题矩阵,利用SOM算法对该矩阵进行练习,将27个年份映射到26个SOM非空结点上,并以彗星模式显示SOM输出。通过分析连续年份在SOM输出中的位置之间的相邻程度,根据自定义的增强型U-matrix图,将27个年份聚成13个类,揭示了该期刊的主题在这27年间的整体变化规律。接着,通过构造主题-年份矩阵,利用SOM算法对该矩阵进行练习,将990个主题映射到153个SOM结点上,应用属性方差矩阵,识别随时间变化较为明显的活跃主题,结合属性叠加矩阵,识别平稳发展的热门主题。最后,利用综合成分图,分析了信息类、计算机与网络类以及图书馆类这三类活跃主题随时间发展的趋势。7.研究的不足及展望本章总结了本研究在数据收集与研究内容上的不足,指出后续将扩大研究的期刊范围与时间跨度,研究更多期刊在更长时间跨度内的主题特点;阐述了属性叠加矩阵与属性方差矩阵用于分析期刊的主题总数、主题侧重程度之间的差别以及这些指标随时间变化的规律的基本原理。此外,比较不同国家与地区的图书情报期刊在主题上的相似性与差异将有助于国内图书情报学研究与期刊发展。图24,表22【关键词】:期刊主题自组织映射SOM图书情报
【论文提纲】:中文摘要6-9Abstract9-160引言16-280.1选题背景与意义16-180.2国内外研究现状18-270.2.1国外研究现状18-230.2.2国内研究现状23-250.2.3目前存在的主要问题25-270.3本文的研究内容与方法270.4本文的创新之处27-281期刊主题研究的理论基础28-411.1期刊主题研究的对象281.2期刊主题研究的主要内容28-321.2.1期刊主题标引研究28-291.2.2期刊主题的聚类研究291.2.3特定种别的主题在期刊中的分布研究29-301.2.4基于主题的期刊分类与聚类研究30-311.2.5特定期刊的主题构成分析311.2.6不同国家与地区的期刊主题比较研究31-321.2.7期刊主题热门分析321.2.8期刊主题发展趋势研究321.3期刊主题研究的主要方法32-391.3.1文献计量学方法33-341.3.2内容分析法34-351.3.3专家调查法35-361.3.4潜在语义分析36-371.3.5多维标度371.3.6人工神经网络方法37-391.4期刊主题研究的走向与趋势39-412自组织映射用于期刊主题研究的方法论41-542.1自组织映射原理41-422.2自组织映射的主要学习算法及其比较42-432.3自组织映射的显示方式43-442.3.1U-matrix图432.3.2成分图432.3.3SOM显示的形状43-442.4自组织映射的软件工具44-452.5自组织映射用于期刊主题研究的方法设计45-542.5.1期刊主题研究的SOM输入矩阵的构造45-462.5.2统一间隔矩阵在期刊主题研究中的分析方法46-482.5.3成分图在期刊主题研究中的分析方法482.5.4综合成分图的定义及其在期刊主题研究中的分析方法48-492.5.5属性叠加矩阵的定义及其在期刊主题研究中的分析方法49-502.5.6属性方差矩阵的定义及其在期刊主题研究中的分析方法50-512.5.7关键属性投影的定义及其在期刊主题研究中的分析方法51-543期刊主题聚类研究54-843.1研究目的与方法543.1.1研究目的543.1.2研究方法543.2数据来源的选择与结构描述54-553.3数据收集与预处理55-563.4实验过程与结果56-763.4.1SOM练习56-573.4.2增强型U-matrix有效性的验证57-583.4.3基于SOM输出的主题聚类分析58-763.5结果分析与讨论76-823.5.1主题聚类的大小76-773.5.2主题聚类在SOM输出中的空间分布77-783.5.3主题聚类效果的分析78-823.6与中文图书情报学期刊主题聚类结果的比较82-833.7结论83-844期刊热门主题研究84-1084.1研究目的与方法84-854.1.1研究目的844.1.2研究方法84-854.2被调查期刊整体的热门主题分析85-914.2.1输入数据描述854.2.2SOM练习85-864.2.3结果分析与讨论86-914.2.4与中文图书情报学期刊热门主题的比较914.3特定期刊的热门主题研究91-974.3.1特定期刊的选择91-924.3.2成分图的天生|教育论文网|924.3.3通过成分图分析对应期刊的热门主题92-974.4热门主题在期刊中的分布研究97-1064.4.1输入数据描述974.4.2SOM练习97-984.4.3热门主题聚类的综合成分图分析98-1064.4.4三类热门主题在期刊中的分布状况比较1064.5结论106-1085期刊的主题相似性与差异研究108-1215.1研究目的与方法108-1095.1.1研究目的1085.1.2研究方法108-1095.2期刊的主题相似性研究109-1125.2.1输入数据描述1095.2.2SOM练习109-1105.2.3基于SOM输出的期刊聚类分析110-1125.3期刊的主题差异研究112-1195.3.1输入数据描述112-1135.3.2关键差异主题的识别113-1155.3.3关键属性投影分析115-1195.4结论119-1216期刊主题发展趋势研究121-1376.1研究目的与方法121-1226.1.1研究目的1216.1.2研究方法121-1226.2期刊主题时序变化规律分析122-1256.2.1数据收集与预处理1226.2.2SOM练习122-1236.2.3连续年份的主题变化程度分析123-1246.2.4较长时期内JIS期刊的主题变化规律分析124-1256.3主题的时序活跃性分析125-1316.3.1输入数据描述125-1266.3.2SOM练习126-1276.3.3活跃主题的识别127-1286.3.4平稳发展的热门主题识别128-1316.4活跃主题的变化趋势分析131-1366.4.1信息类活跃主题的变化趋势分析131-1336.4.2计算机与网络类活跃主题的变化趋势分析133-1346.4.3图书馆类活跃主题的变化趋势分析134-1366.5结论136-1377研究的局限性及展望137-1397.1数据样本的局限性1377.2研究内容的局限性及未来的研究方向137-139图表索引139-141参考文献141-150附录150-152攻读博士学位期间参加的科研项目及发表论文情况152-153后记153
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~