首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【KDD2022教程】在线聚类:算法、评估、指标、应用和基准

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准

作者头像
数据派THU
发布2022-08-29 10:58:49
发布2022-08-29 10:58:49
1.2K00
代码可运行
举报
文章被收录于专栏:数据派THU数据派THU
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
复制
来源:专知本文为课程介绍,建议阅读5分钟我们提出了基于现实问题和数据集的聚类配置、应用程序和基准设置的方法。

在线聚类算法在数据科学中发挥着至关重要的作用,尤其是在时间、内存使用和复杂性方面的优势,同时与传统聚类方法相比保持了较高的性能。本教程服务于,首先,作为在线机器学习的调查,特别是数据流聚类方法。在本教程中,最先进的算法和相关的核心研究线程将通过识别不同的类别基于距离,密度网格和隐藏的统计模型。聚类有效性指标作为聚类过程中的一个重要组成部分,通常被忽略或被分类指标所取代,导致对最终结果的误解,也将被深入研究。

然后,本文将介绍River,一个由Creme和scikit-multiflow合并而成的go-to Python库。它也是第一个包含在线集群模块的开源项目,该模块可以促进可重复性,并允许直接进一步改进。在此基础上,我们提出了基于现实问题和数据集的聚类配置、应用程序和基准设置的方法。

https://hoanganhngo610.github.io/river-clustering.kdd.2022/

教程的大纲,如下:

数据流(在线)机器学习导论(约45分钟)

  • 什么是在线机器学习,我们为什么需要在线机器学习?
  • 与批量/传统机器学习相比,在线机器学习的差异、优点和缺点。
  • River简介,一个由Creme和scikit-multiflow合并而成的用于机器学习的实用Python库。
  • River在分类、概念漂移、估计值实现等方面的实际应用,以及使用全视图显示实时结果。

在线聚类算法和评估指标。

  • 综述了现有聚类算法、一般概念及其发展。
  • 聚类和分类评价指标的主要差异,可能导致对最终结果的错误解释。
  • 在线聚类算法和评估指标在实际问题中的实际应用。

用例和基准测试。

  • 在线与传统/批处理聚类算法的比较。
  • 进行基准测试的动机、设置和系统要求。
  • 关于使用River包以及相关的git库和终端进行基准测试的教程。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档