关联数据分析,就是从大规模数据中,发现对象之间隐含关系与规律的过程,也称为关联规则学习。例如:购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系,可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,可以认为规则成立。
1.项与项集
项,指我们分析数据中的一个对象;项集,就是若干项的项构成的集合,如集合{牛奶、麦片、糖}是一个3项集
2.支持度
某项集在数据集中出现的概率。即项集在记录中出现的次数,除以数据集中所有记录的数量。
支持度体现的是某项集的频繁程度,只有某项集的支持度达到一定程度,我们才有研究该项集的必要。
support(A)=count(A)/count(dataset)=P(A)
3.置信度
项集A发生,则项集B发生的概率。关联规则{A->B}中,A与B同时出现的次数,除以A出现的次数。
置信度体现的是关联规则的可靠程度,如果关联规则{A->B}的置信度较高,则说明当A发生时,B有很大概率也会发生,这样就可能会带来研究价值。
4.提升度
关联规则{A->B}中,提升度是指{A->B}的置信度,除以B的支持度
提升度体现的是组合(应用关联规则)相对不组合(不应用关联规则)的比值,如果提升度大于1,则说明应用该关联规则是有价值的。如果提升度小于1,说明应用该关联规则起到了负面影响。因此,我们应该尽可能让关联规则的提升度大于1,提升度越大,则应用关联规则的效果越好。(注:如果两个事件相互独立,P(AB)=p(A)*P(B),提升度为1).关联数据分析。
5.频繁项集
如果项集I的支持度满足预定义的最小支持度阈值,则I是频繁项集。
通常情况下,我们只会对频繁出现的项集进行研究。如果一个频繁项集含有K个元素,我们称之为频繁K项集。
6.最小支持度
用户或专家定义的衡量支持度的一个阈值,表示项集在统计意义上的最低重要性。
7.最小置信度
用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则成为强规则。
目前,设置最小支持度和最小置信度,大部分根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。
关联数据分析算法在在线数据分析平台中也有很好的运用,感兴趣的同学可以前往九数云官网中的帮助文档,跟着帮助文档一步步进行关联数据分析,一定会受益匪浅。
九数云传送门:九数云-在线数据分析工具_在线报表工具_分析有趣,决策有据 (jiushuyun.com)
上一篇: 三分钟做出美观实用的数据可视化看板——九数云