面向远程教育搜索引擎系统设计与实现

更新时间:2024-01-31 点赞:21636 浏览:96214 作者:用户投稿原创标记本站原创

面向远程教育的垂直搜索引擎系统是远程教育资源获取的主要途径。在爬取子系统中,通过对国内远程教育资源建设机制的分析,专用数据结构的设计,DNS解析、统一编码等问题的解决,提出了基于地址段控制和ContentGraph层分类控制相结合的抓取机制,使抓取效率提高了36.1;在预处理和检索子系统中,通过对Lex技术的分析,设计了基于Lex的网页内容提取器,提出了一种自适应字长的扩展异或哈希算法,构建了行业专用词典,使冲突率减少至0.03,并依此构建索引系统;最后通过对信息检索基础理论和检索模型的分析,提出面向远程教育的检索模型,通过对服务接口实现完成搜索功能,为提高检索效率引入了Cache机制,使得80的针对远程教育的检索为零耗时。实验表明,各子系统的实施使垂直搜索引擎在满足查全率的条件|教育论文网|下达到查准率要求,在系统应用中带来了很好的效果。【关键词】:远程教育搜索引擎信息检索
【论文提纲】:摘要3-4Abstract4-8第一章绪论8-191.1远程教育与搜索引擎8-131.1.1教育技术8-101.1.2远程教育的发展10-111.1.3搜索引擎11-131.2面向主题的搜索引擎13-151.2.1主题搜索13-141.2.2面向远程教育的搜索引擎14-151.3论文工作15-171.4论文组织17-19第二章面向远程教育的搜索引擎系统分析19-302.1搜索引擎系统19-222.1.1通用搜索引擎系统19-212.1.2面向远程教育的垂直搜索引擎设计21-222.2爬取子系统22-242.3预处理与索引器系统24-262.4服务子系统26-30第三章爬取子系统的设计与实现30-523.1爬取子系统基础30-433.1.1超文本传输协议与网络相关30-333.1.2DNS解析扩展33-353.1.3Linux下的Posix多线程与信号机制35-383.1.4Web图及Web数据挖掘38-403.1.5一种广泛使用的数据结构在系统实施中的应用40-423.1.6其他相关42-433.2高性能爬取子系统的核心技术43-503.2.1高效爬取算法和抓取机制43-453.2.2基于Web图的抓取机制的再探讨45-473.2.3一致性编码问题47-483.2.4数据存储48-503.3爬取子系统的实施与实验50-513.4本章小结51-52第四章预处理及索引器系统52-724.1预处理和索引基础52-554.1.1Lex技术52-544.1.2分词技术与中文词典54-554.1.3其他554.2内容抽取55-604.2.1内容抽取模块的设计55-594.2.2内容抽取子模块实验59-604.3中文词典的建立60-674.3.1异或哈希算法61-624.3.2自适应异或哈希算法62-664.3.3实验及结果66-674.4索引建立67-714.4.1正向索引67-694.4.2倒排索引69-714.4.3其他问题714.5本章小结71-72第五章检索服务子系统72-865.1检索系统概述72-795.1.1信息检索72-735.1.2检索模型73-785.1.3检索模块的设计与实现78-795.2Web服务模块设计79-845.2.1CGI79-825.2.2服务模块设计82-835.2.3Cache机制的应用83-845.3系统测试84-865.4本章小结86第六章总结与展望86-896.1论文总结87-886.2展望88-89致谢89-90参考文献90-95研究成果95-96
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~