关联,浅谈关联规则挖掘技术探讨与运用相关

更新时间:2024-02-28 点赞:29293 浏览:132550 作者:用户投稿原创标记本站原创

【】数据挖掘技术是日前广泛探讨的数据库技术,规则是表示数据库中一组之间某种联系的规则。简要了规则挖掘的论述和、Apriori算法,了规则数据挖掘的运用情况。
【词】规则 数据挖掘Apriori算法 运用
数据库技术的进展,全球范围内的数据存储量急骤上升,面对这一挑战,数据挖掘技术应运而生, 规则挖掘在数据挖掘中是的课题,最近几年已被业界所广泛探讨。规则的是数据的频繁方式,规则挖掘大量数据中项集之间有趣的或联系。

一、规则的定义

规则挖掘的典型例子是购物篮浅析。规则探讨有助于交易数据库中不同商品(项)之间的联系,找出顾客购买方式,如购买了某一商品对购买其他商品的影响。浅析结果运用于商品货架布局、货存安排购买方式对用户分类。

二、规则挖掘的

规则挖掘两个阶段:规则挖掘的阶段以原始集合中,找出高频项目组(Large Itemsets)。高频的意思是指某目组出现的频率相对于而言,达到某一。规则挖掘的阶段是要产生规则(Association Rules)。定义,这些规则最小支持度和最小可信度。

三、规则分类

1.基于规则中处理的变量的类别,规则分为布尔型和数值型。布尔型规则处理的值离散的、种类化的,它了这些变量之间的联系;而数值型规则和多维或多层规则,对数值型字段处理,将其动态的分割,对原始的数据处理。
2.基于规则中数据的抽象层次,分为单层规则和多层规则。在单层的规则中,的变量都考虑到现实的数据是具有多个不同的层次的;而在多层的规则中,对数据的多层性已经了的考虑。
3.基于规则中涉及到的数据的维数,规则分为单维的和多维的。在单维的规则中,只涉及到数据的维;而在多维的规则中,要处理的数据将会涉及多个维。

四、规则挖掘算法

1.Apriori算法:使用候选项集找频繁项集。Apriori算法是规则挖掘的算法,是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年的规则挖掘算法。找出的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强规则,这些规则最小支持度和最小可信度。
2.基于划分的算法。Sasere等设计了基于划分的算法。算法先把数据库以逻辑上分成互不相交的块,每次单独考虑分块并对它生成的频集,然后把产生的频集合并,用来生成可能的频集,计算这些项集的支持度。这里分块的大小选择要使得每个分块被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每可能的频集至少在某分块中是频集保证的。该算法是并行的,把每一分块分配给某处理器生成频集。产生频集的每循环结束后,处理器之间通信来产生全局的候选k-项集。通常这里的通信是算法执行时间的瓶颈;而另

一、每个独立的处理器生成频集的时间瓶颈。

3.FP-树频集算法。Apriori算法的固有缺陷,J. Han等了不产生候选挖掘频繁项集的策略教学论文:FP-树频集算法。分而治之的对策,在经过遍扫描,把数据库频集压缩进一棵频繁方式树(FP-tree),依然保留的信息,随后再将FP-tree分化成条件库,每个库和长度为1的频集,然后再对这些条件库挖掘。当原始数据量很大的时候,也划分的策略教学论文,使得FP-tree放入主存中。实验,FP-growth对不同长度的规则都有很好的适应性,在效率上较之Apriori算法有的提高。

五、规则运用领域

技术不但在商业浅析中了广泛的运用,在领域也了运用,工程、医疗保健、金融证券浅析、电信和保险业的错误校验等。它的挖掘是事务数据库。挖掘技术在西方运用于金融行业企业中,成功预测银行客户需求。一旦了这些信息,银行就改善自身营销。另外,规则也服务于cross-sale(交叉销售)。交叉销售是行销技艺,它是指向顾客推销与其已有消费有关的产品与服务。浅析老顾客的购买,的产品消费偏好,给产品的优惠及服务,这样不但能留住还使逐渐熟悉另外的产品,公司以而以的速度利润。
文献:
Did Hand,Padhraic Smyth.张银奎,廖丽,宋俊等译.数据挖掘原理[M].北京:机械工业出版社.2003(4).
秦亮曦,史忠植.规则探讨综述[J].广西大学学报:自然科学版.2005(4).
[3]毕建欣,张歧山.规则挖掘算法综述[J].工程科学.2005(4).
(作者单位:沈阳职业技术学院计算机学院)
编辑/李文亮


相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~