基于随机相遇的频繁项集挖掘方法

更新时间:2015-11-13

《河南理工大学学报（自然科学版）》2015年1期

【摘要】频繁项集挖掘是关联规则挖掘的重要内容，而现有的频繁项集挖掘算法在数据库扫描和复杂数据结构构建方面消耗过多的时间，效率较低。为克服现有频繁项集挖掘算法的不足，提出了基于随机相遇的频繁项集挖掘算法。在随机相遇过程中，不断从原始事务集中随机挑选两条事务，将其交集作为新事务集中的元素，通过计算新事务集中最小支持度与原事务集中最小支持度的关系，将在原事务集上的频繁项集挖掘转化为在新事务集上的频繁项集挖掘，算法的时间复杂度和空间复杂度大大降低。由于随机样本蕴含原始数据集的主要统计特性，新事务集具有原事务集的统计特性，通过调整参数，算法在新事物集上挖掘结果的准确度可以得到保证。并利用一个零售超市的交易数掂对该算法的有效性进行了测试。测试结果表明，该算法能将挖掘速度提升数十倍，同时挖掘结果的准确度和其它算法相差不大。

【关键词】数据挖掘频繁项集挖掘随机相遇算法随机相遇最小支持度