Loading...

Apriori - 基于关联规则的推荐算法(一)

Apriori Algorithm - 先验算法,基于数据挖掘和关联规则的推荐算法(一)

什么是Apriori

   如副标题,Apriori 是一个基于数据挖掘和关联规则的推荐算法,旨在通过数据挖掘分析数据之前的关联性,并根据关联性强弱进行相关数据的推送。在早期,Netflix正是使用此算法,使其流媒体平台能实现对用户的精准推送。

   以Netflix为例:用户A观看过《太空漫游2001》、《星际穿越》。而用户B观看过《太空漫游2001》、《火星救援》。此时一名新用户C,他仅在流媒体观看过《星际穿越》,平台则根据关联规则,为用户C推荐了《太空漫游》和《星际穿越》。从此例子看出,数据之间存在某些关联性,而Apriori算法则可以挖掘出这些关联性,实现精准的用户推送。

Apriori的核心

引用文献&资料1:https://en.wikipedia.org/wiki/Apriori_algorithm(维基百科)

引用文献&资料2:https://www.ibm.com/think/topics/apriori-algorithm(IBM公司数据分析师:Joshua Noble的文章:《what is the Apriori algorithm》)

优点:易于代码实现

缺点:数据集合量越大,算法效率越低

tips:可通过进阶算法:FP-Growth解决Apriori的局限性

关键参数 - 要实现Apriori算法需先定义2个值和计算3个值:

最小支持度:minSup(只有大于等于此值的集合才能参与下轮递归,低于此值的集合将不参与递归)

最小置信度:minConf(所有置信度需大于等于此值才符合最强关联规则,否则此值不具备参考性)

支持度:support(以下简称Sup)

置信度:confidence(以下简称Conf)

提升度:lift(以下简称Lift)

tips: 关于minSup和minConf的参数调优,以下是DeepSeek给出的参考(AI工具仅供参考,具体参数调优,需要根据数据集微调)

20250913232518946.webp

什么是数据频繁项集

引用文献&资料3:https://www.geeksforgeeks.org/r-language/association-rule-mining-in-r-programming/(Geeks for Geeks 极客社区文章:《Association Rule Mining in R Programming》)

   例:这里有一个订单表,3名用户分别购买了以下产品:

订单列表
用户A菠萝、西瓜、柠檬
用户B苹果、菠萝、西瓜
用户C火龙果、苹果、西瓜,柠檬

   首先,数据的频繁一项集即所有出现的产品:{菠萝}, {西瓜}, {柠檬}, {苹果}, {火龙果}

           数据的频繁二项集即所有出现的产品的排列组合:{菠萝,西瓜}, {菠萝,柠檬}, {菠萝,苹果}, {菠萝,火龙果}, {西瓜,柠檬}, {西瓜,苹果}, {西瓜,火龙果}, {柠檬,苹果},{柠檬,火龙果},{苹果,火龙果}

           以此类推,数据的频繁K项集,即穷举所有产品的排列组合(当然,未出现在订单表的组合为无用组合)。在电商领域一般只需要3项集即可。即:{菠萝,西瓜,柠檬},{菠萝,西瓜,苹果} ...等 -> {P1,P2,P3}。理解了数据频繁项集这个概念后,我们来看Apriori的核心算法公式

Apriori核心算法公式

tips:所有公式的计算需要按项计算:K=1 → K=2 → K=3 → K=N

Sup formula:

20250913232608439.webp

即:Sup = {A,B} / total number of data collections

       支持度 = 包含数据A,B的集合数量 / 数据集总量

*(total number of data collections 或 total number of transactions 以下简写为:T)

即:Sup₁ = {A} / T 、 Sup₂ = {A,B} / T 、 Sup₃ = {A,B,C} / T

Conf formula:

20250913232616516.webp

即:Conf(A→B) = {A,B} / {A}

   置信度(A→B) = 包含{A,B}的集合数 / 包含{A}的集合数

以此类推,二阶(k=2)对应公式为:Conf({A,B}→{C}) = {A,B,C} / {A,B}

Lift formula:

20250913232630729.webp

即:Lift(A→B) = Sup{A,B} / Sup{A} * Sup{B}

   提升度(A→B) = 支持度{A,B} / 支持度{A} * 支持度{B}

以此类推,二阶对应公式为:Lift({A,B}→{C}) = Sup{A,B,C} / Sup{A,B} * Sup{C}

*Lift < 1:负相关(彼此不太可能一起出现)即:不太可能一起买,前者甚至影响后者销量

*Lift = 1:无相关(彼此独立)即:毫无关联

*Lift > 1:正相关(彼此倾向于一起出现)即:很可能一起买,前者可以提高后者销量

结语

至此,我们已明确Apriori的概念,数据频繁项集的概念,Apriori的核心算法公式。下一章我们开始用一个简单的例子,手工演算Apriori算法,并发现数据之间的关联性规则

0

回到顶部