打开图片集关于网络舆情信息处理系统络舆情信息处理系统探讨与实现

更新时间:2024-01-29 点赞:14407 浏览:52852 作者:用户投稿原创标记本站原创

[],网络舆情的和浅析已部门民众思想和倡议的手段,网络舆情浅析的需求,了中文分词的上统计帖子的词频信息,并在热点话题的上给出了基于网络舆情技术的网络舆情信息处理系统模型,文章的实验验证了该模型的性和性。
[词]网络舆情;中文分词;热度评价;系统模型
[中图分类号]TP[文献标识码]A
[文章编号]1007-4309(2012)02-0114-1.5
网络舆情是指网民BBS网站上的文章、新闻和在线交流等方式所传递、表达的情绪和意见,网络舆情实质上代表了公众对或与自身利益紧密的公共事务所持有的情绪、态度和意见交错的总和。由网络具有广阔的开放性和舆论的自由性,的新闻热点和民众最关心的话题。

一、中文分词及词提取技术

网络热点话题浅析的分为两个:网络热点话题提取和热度评价。网络热点话题的是指以大量的论坛帖子中热点话题并词定位到的帖子,而热点话题的排序还的评价策略来对其热度评价。的多词联合的BBS热点话题浅析策略是基于机械分词法,机械分词法又叫基于字符串匹配的分词策略,词法、语法和语义信息浅析的分词技术来对BBS帖子内容分词,它是的对策将待浅析的汉字串与“大的”机器词典词条区配,若在词典中找到某个字符串,则匹配成功。机械分词法具有原理简单、实用、易等特点,比较适用于语句相对简洁的BBS文本处理。

二、热点话题的

热点话题的是指以大量的论坛帖子中热点话题并词定位到的帖子,而热点话题的排序情况还的评价策略来对其热度评价。
热点话题是对帖子内容中出现的词语的统计,策略所的话题出的热点不足,但论坛是基于发帖人和回帖人的的,还有其他的帖子的浏览数、回复数、是精华帖等因素,所以的热度还有待于的计算。

三、系统模型的技术

信息的采集。在信息采集模块中完成网络论坛WEB页面的抓取。WEB页面的抓取类似于搜索引擎页面爬行机器人。,在指定或多个网络论坛中信息,在的信息Web信息采集器,以初始采集开始,将这些URL全部放到有序的待采集队列里,然后按次序取出URL,它所指向的页面,返回页面的HTML文件。页面间的链接联系,新的页面的URL,并将它们放到待采集的队列里。上述,直到整个网站的全部网页都被采集完为止,也用户的下载层数的网页。
信息的预处理。在信息的预处理中完成在WEB页面抓取的页面信息的除嗓和词提取操作。,在WEB页面抓取下来的页面里了对用户任何意思的信息,系统将页面净化模块将这些信息进取去除,再DOM树技术将该页面中浅析出的词或其他对用户有意思的信息进取,系统的处理剩下的系统对用户有意思的信息。
信息的浅析存储。在信息的浅析存储处理模块中系统将信息预处理而的信息浅析存储管理。,本系统将舆情浅析中文本分类和聚类等策略对预处理后的素材信息浅析,将这些信息分类汇总,系统选定的数据库管理系统将这些分类汇总的信息数据库后台信息存储管理,为使用该系统的用户网络舆情浅析信息资源。

四、系统的核心模块

信息的采集模块。舆情信息采集是整个系统的信息源。Web页面大量的数据信息,看作是的数据库。但Web页面的数据是半结构化非结构化的,加上Web页面极快的增加速度,其信息还在不断地发生更新,动态性极强的信息源,对Web页面信息采集是比较复杂的,在本系统中信息的采集流程如图1所示。
在本模块中,最为的网络爬行器的设计与使用。常用的网络爬行器的是尽可能多地采集信息页面,并不太在意页面采集的和被采集页面的主题,这样消耗了的系统资源和网络带宽,但并换来采集页面的较高率。为决这一不足,本系统使用定向抓取网络资源的主题网络爬行器。主题网络爬行器的网页浅析算法过滤与主题无关的链接,保留与主题的链接并将其放入待抓取的URL队列中,事先给出的主题,浅析超链接和已经下载的网页内容,预测下待抓取的URL网页的主题度,保证尽可能多的爬行,下载与主题的网页,尽可能少地下载无关网页。
信息的预处理。与普通的文档相比,Web文档了除正文以外的大量的其他信息,如广告链接、导航链接和版权信息等。与传统的数据库中结构化的数据相比,Web文档数据结构极其复杂,计算机很难对抓取到的数据处理。信息预处理信息采集后的的,所工作应:页面清洗与内容提取,文本分词,特点提取和词提取.舆情信息预处理的流程如图2所示。
页面清洗与内容提取:Web页面不像传统的文档一样整齐干净,含有大量的噪声,Web页面在语义内聚性上保证,Web页面通常语义无关的,页面清洗对挖掘的效果具有作用。Web页面清洗的目的是以页面中划分出更精确的信息单位,工作是:网页清洗模块对网页的注释、导航、广告、版权等噪声信息去噪。页面清洗,内容提取将半结构化的Web数据转化成具有方式的、可操作的信息。经过调研这些网页内容提取策略都2个来:网页逻辑结构(DOM模型)的剖析与表示指定元素的过滤与选择。
特点提取与词的提取:特点提取是以分词后的文档中提取和信息的策略,其目的是以噪音数据中分离出的信息减少数据的维数。常用的特点抽取的策略基于词性和词义的特点提取策略。
信息的浅析存储。信息的浅析存储是系统中最为的处理模块,文本分类和聚类等策略对预处理后的舆情素材信息浅析、储存,舆情信息的热点和跟踪。舆情浅析存储模块的流程如图3所示。
热点算法以本质上来说是属于数据挖掘文本聚类算法。算法的如下:将预处理后的文本信息归入不同的话题,并在的时候建立新的话题,热点的目的要话题将文档聚类,以一组文档新热点,关于新热点的,建立新的主题。
[文献]
[1]章栋兵.互联网舆情浅析技术的探讨与[D].武汉理工大学硕士学位论文,2010.1-3.
[2]梅中玲.基于Web信息挖掘的网络舆情浅析技术[J].人民大学学报,2007(4):85-88.
[3]刘昌钰,唐常杰,于等.基于潜在语义浅析的BBS文档Bayes鉴别器[J].计算机学报,2004,27(4):566-572.
[4]吴庆涛,普杰信,崔林.基于BBS文本信息的数据挖掘[J].洛阳工学院学报,2002(2):55-58.
[5]薛冰冰,普杰信,王峰.数据挖掘技术在BBS管理运用[J].现代电子技术,2004,(2):55-57.
[作者介绍]吴晓辉(1980- ):女,沈阳理工大学,沈阳铁路机械学校信息技术部讲师。李卓玲:沈阳理工大学,沈阳工程学院。
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~