文章摘要
一种垂直结构的高效用项集挖掘算法
An Algorithm of Mining High Utility Itemsetswith Vertical Structures
投稿时间:2016-11-18  修订日期:2017-01-10
DOI:
中文关键词: 数据挖掘  关联分析  频繁项集  高效用项集  
英文关键词: data mining  association rule  frequent itemsets  high utility itemsets  
基金项目:国家自然科学(61303046):面向复杂实时应用的混合存储系统数据分布模型研究
作者单位邮编
黄坤* 中国舰船研究设计中心 430064
吴玉佳 武汉大学计算机学院 
摘要点击次数: 386
全文下载次数: 0
中文摘要:
      挖掘高效用项集已成为关联分析中的一个热点问题之一。多数高效用项集挖掘算法需要产生大量的候选项集,影响了算法性能。HUI-Miner是一个不需要产生候选项集就能发现所有高效用项集的算法。但其需要产生大量效用列表,不仅消耗了过多的存储空间而且影响了算法的运行性能。针对此问题,提出一个新的数据结构,称为项集列表,用于存储事务和项的效用信息。提出三种剪枝策略,减少项集列表的数量,通过扫描一次数据库完成所有项集列表的构建。提出算法MHUI,直接从项集列表中挖掘所有的高效用项集而不产生任何候选项集。通过在三个不同的稀疏数据集上和最新的算法进行对比实验,MHUI算法的性能优于其它算法。
英文摘要:
      Mining high utility itemsets (HUIs) is one of popular tasks in field of association analysis. Most of HUIs mining algorithm need to generate a lot of candidate itemsets(CIs) which will affect the performance of algorithm. HUI-Miner can mine all the HUIs from a transaction database without generating CIs. However, this algorithm generates a large numbers of utility lists(ULs) and so many ULs not only consumes too much storage space but also affects the operation performance. In this paper, to solve this problem, itemsets lists(ILs), a new data structure, are proposed, to maintain information of transaction and item utility. Three strategy are proposed, to reduce the number of ILs and can build the ILs just scanning the transaction database only once. Proposed a new algorithm namely MHUI which mines all the HUIs directly from the ILs without generating any CIs. The experimental results show that proposed method outperforms the state-of-the-art algorithms in terms of runtime and memory consumption on three different sparse datasets.
View Fulltext   查看/发表评论  下载PDF阅读器
关闭