“大数据与数据科学家”公众号“文献导读”栏目每周会为大家推出大数据与数据科学领域的前沿论文。每篇论文将附有短评,如对文献内容有所疑问或希望与导读人进一步交流,欢迎大家留言或联系我们。本期文献导读的主题是大数据挖掘。
1. A model-based approach for text clustering with outlier detection
论文作者:Jianhua Yin, Jianyong Wang
发表会议:ICDE 2016
相关方向:文本聚类;离群点检测
导读人:邱慧
[文献短评]:由于文本数据集的高维度和大体积特性,文本聚类是一个具有挑战性的问题。本文提出了一个文本聚类的Dirichlet多元混合模型(简称为gsdpmm)。该模型不需要指定的数字集群,能够解决文本聚类中的高维问题。此外,本文提出了检测数据集中离群值的新方法,并能够获得所有具有代表性的群集。在实验过程中,我们注意到,通过gsdpmm模型推断出的数字群具有很好的可扩展性,因此,gsdpmm模型在增量聚类上具有潜在的良好性能。大量实验表明,gsdpmm模型具有高性能,较低的时间复杂度和空间复杂度,具有很好的可扩展性。
2. PurTreeClust: A purchase tree clustering algorithm for large-scalecustomer transaction data
论文作者:Xiaojun Chen, Joshua ZhexueHuang, Jun Luo
发表会议:ICDE 2016
相关方向:交易数据分析;聚类树
导读人:李可利
[文献短评]:在零售和电子商务企业,客户交易数据聚类是分析顾客行为的重要步骤。为了更好地分析大规模客户交易数据,本文提出了使用“个性化产品树”,称为purchasetree,代表客户的交易数据。并将客户交易数据集表示为一组购买树。本文提出了购买大型客户聚类树的purtreeclust算法,并定义了一个新的距离度量来计算两个purchasetree的整体水平。然后,本文设计了针对大型购物数据树的快速聚类方法purtreeclust。最后,本文选用了一系列大型交易数据集进行实验,其中包含多达四百万个交易记录。实验验证了所提出方法的有效性和效率。此外,通过与三种经典的聚类方法,谱聚类,分层聚类,DBSCAN算法进行比较,证明了所提出的方法优于以上三种聚类方法,具有高性能。
3. Rudolf: Interactive Rule Refinement System for Fraud Detection
论文作者:Tova Milo, Slava Novgorodov, Wang-ChiewTan
发表会议:VLDB 2016
相关方向:欺诈检测;众包
导读人:郑雪
[文献短评]:现如今,除了以机器学习为基础的技术,信用卡公司经常聘请领域专家利用领域知识来手动改进检测过程的规则。因此,众包方法已经成为了解决机器学习问题的有一种有效方法。通过结合机器学习和专业的领域经验的双重优势,能够有效提高识别和检测的准确率。而目前的欺诈检测和入侵检测大部分的方法都是基于机器学习和数据挖掘技术实现的。因此,本系统的目标是指导和协助领域专家完成欺诈检测和入侵检测的任务。现有的信用卡欺诈检测系统,如Chimera系统,过于依赖人工,而其他现存系统,没有关注在变化中持续维护并改善规则的问题,而本文将这些问题作为关注的重点。对于欺诈检测的机器学习技术,像决策树、基因编程等都可以作为本系统的补充,用来生成初始化的预测模型。如果将系统看作规则挖掘的过程,现有的技术在细节上不符合需求,例如它们的框架和解决方案严格禁止包含未标记交易的可能性,而本系统改善了这些问题。
(责任编辑:齐志鑫)
“大数据与数据科学家”公众号
主编:王宏志
特邀副主编:朱劼
副主编:丁小欧
责任编辑:齐志鑫,宋扬,万晓珑、魏龑,张荣恩
编辑: 陶颖安
-精彩内容,记得分享到朋友圈-
领取专属 10元无门槛券
私享最新 技术干货