博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式并行关联规则挖掘
阅读量:5836 次
发布时间:2019-06-18

本文共 484 字,大约阅读时间需要 1 分钟。

  经典的关联规则挖掘算法Apriori和FP-growth,在大数据或者海量数据面前,由于候选集和生成的FP树大而无法存储到内存,同时也由于算法本身单机的特点,决定了它串行处理数据的方式,这在效率上很难满足大数据处理的要求,数据迁移到平台需要传输和转储,在大数据面前,也是一大难题。

  一般而言"关联规则的挖掘过程分为两步

  1 找出所有的频繁项集,根据定义这些项集的每一个频繁出现次数至少与预定义的最小支持度计数
  2 由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。
  由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定,因此重点研究产生频繁项集的过程。

  已有的学者再分布并行处理方面做得改进:

  1 数据划分思想

  2 多线程内存共享

  3 FP子树的分布并行处理

  4 条件模式基的并行分布挖掘

  5 采用多个局部FP树代替全局FP(二者是等价的,为了便于分布到各个Map上)

  待续。

转载于:https://www.cnblogs.com/XiaoErDuoFancy/p/5832810.html

你可能感兴趣的文章
直播源码开发视频直播平台,不得不了解的流程
查看>>
Ubuntu上的pycrypto给出了编译器错误
查看>>
聊聊flink的RestClientConfiguration
查看>>
在CentOS上搭建git仓库服务器以及mac端进行克隆和提交到远程git仓库
查看>>
測試文章
查看>>
Flex很难?一文就足够了
查看>>
【BATJ面试必会】JAVA面试到底需要掌握什么?【上】
查看>>
CollabNet_Subversion小结
查看>>
mysql定时备份自动上传
查看>>
17岁时少年决定把海洋洗干净,现在21岁的他做到了
查看>>
《写给大忙人看的java se 8》笔记
查看>>
倒计时:计算时间差
查看>>
Linux/windows P2V VMWare ESXi
查看>>
Windows XP倒计时到底意味着什么?
查看>>
运维工程师在干什么学些什么?【致菜鸟】
查看>>
Linux中iptables详解
查看>>
java中回调函数以及关于包装类的Demo
查看>>
maven异常:missing artifact jdk.tools:jar:1.6
查看>>
终端安全求生指南(五)-——日志管理
查看>>
Nginx 使用 openssl 的自签名证书
查看>>