Twitter用户数据Profiling

1.概念

数据摘要:One of the crucial requirements before comsuming datasets for any application is to understand the dataset at hand and its metadata.[1] Data profiling is the set of activities and processes to determine the meta-data about a given dataset.[1] 总体地说,数据概要可以描述为是能够描述原样本数据的一个子集或者结果.比较简单地一种方式是计算平均值,总和或者统计频率最高的一些值等等方式.而较为有挑战性的是,在多列数据中找出其之间的相互函数或次序依赖等等关系.

传统的数据摘要包括data exploration/data cleansing/data integration.而之后,data management和big data analytics也开始出现.

特别地,因为大数据的数据量大,多样性等特性,传统的技术对于其查询,存储及聚合都是花费高昂的.所以,data profiling在这里就显得非常重要.

Data profiling is an important preparatory task to determine which data to mine, how to import data into various tools, and how to interpret the results.[1]

Data Profiling和Data Mining的比较

1.Distinction by the object of analysis:Instance vs. schema or column vs. rows 2.Distinction by the goal of the task:Description of existing data vs. new insights beyond existing data .

2.动机或用例

Data Profiling的目的:

  • Data Exploration
  • Database management
  • Database reverse engineering
  • Data integration
  • Big data analytics

3.方法

1.依赖关系数据库,使用SQL语句查询返回结果(不能够找出所有属性列的依赖) 单列和多列分析 2.搜索最优解:启发式算法 启发式算法是一种技术,使得可接受的计算成本内去搜寻最好的解,但不一定能保证所得到的可行解和最优解,甚至在多数情况下,无法阐述所得解同最优解的近似程度. 3.聚类算法—>筛选 4.按每一维动态规划找出子集

4.twitter数据集人物特征选取

  • 地理位置特征(反映了用户的时空分布,对于POI的推荐是有用的)
  • 活跃度特征(可用于聚类分析)
  • 影响力特征(可用于聚类分析)
  • 推文特征(反映了用户的兴趣爱好,对于推荐系统是有用的)
  • 时域特征

特征处理

1.提取 2.正则化(最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间)

常见的数据归一化方法:

  • min-max,对原始数据的线性变换
  • log函数转换
  • atan函数转换
  • z-score标准化
  • Decimal scaling小数定标标准化
  • Logistic/Softmax变换
  • Softmax函数
  • 模糊量化模式

特征选取原因:该特征代表了用户的…,对于…工作是有用的.

5.twitter data profiling思路

Motivation 聚类结果的代表性:

Even though the construction of a cluster representation is an important step in decision making, it has not been examined closely by researchers.

度量准则:

特征提取 直接:location(时区),Followers/Following,category 间接:Activity,Influence,*InterestTags

距离定义 有序属性:闵可夫斯基距离(p=2时为欧式距离) 无序属性:VDM

方法

  • 1.聚类方法(LVQ)
  • 2.定义图结构来搜索

Challenge-挑战

  • a.原集和profile子集的代表性度量准则的定义
  • b.ProfileSet的大小,k的确定
  • c.寻找ProfileSet(Representation of Clustering[2])
  • d.优化搜索算法

5.参考文献

1.Data Profiling-A Tutorial SIGMOD 2017 2.Data Clustering: A Review IEEE Computer Society

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

以为GAN只能“炮制假图”?它还有这7种另类用途

最近,AI方案设计师Alexandor Honchar在Medium网站上分享一篇文章。他认为生成对抗网络(GAN)目前在生成图像取得了巨大进展,生成的图像几乎...

1053
来自专栏量子位

以为GAN只能“炮制假图”?它还有这7种另类用途

最近,AI方案设计师Alexandor Honchar在Medium网站上分享一篇文章。他认为生成对抗网络(GAN)目前在生成图像取得了巨大进展,生成的图像几乎...

1292
来自专栏IT派

二十六条深度学习经验,来自蒙特利尔深度学习

【前言】2016年8月初的蒙特利尔深度学习暑期班,由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座,剑桥大学自然语...

3297
来自专栏PPV课数据科学社区

【源码】机器学习算法清单!附Python和R代码

本文约6000字,建议阅读8分钟。 通过本文为大家介绍了3种机器学习算法方式以及10种机器学习算法的清单,学起来吧~ 前言 谷歌董事长施密特曾说过:虽然谷歌的无...

3373
来自专栏机器之心

学界 | 神经网络quine:自我复制 + 解决辅助任务

选自arXiv 作者:Oscar Chang、Hod Lipson 机器之心编译 参与:程耀彤、路 近日,哥伦比亚大学的研究者发布论文,从生命的角度看待人工智能...

3605
来自专栏数据派THU

机器学习算法清单!附Python和R代码

来源:数据与算法之美 通过本文为大家介绍了3种机器学习算法方式以及10种机器学习算法的清单,学起来吧~ 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机...

4887
来自专栏AI2ML人工智能to机器学习

一步一步走向锥规划 - QP

一般来说凸优化(Convex Optimization, CO)中最一般的是锥规划 (Cone Programming, CP) 问题, 前面我们介绍了点 最...

1271
来自专栏数据科学与人工智能

【算法】10 种机器学习算法要点

小编邀请您,先思考: 1 你熟悉那些机器学习算法? 2 你如何应用机器学习算法? 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注...

3819
来自专栏机器人网

十种深度学习算法要点及代码解析

谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。 也许我们生活...

1.1K7
来自专栏织云平台团队的专栏

【干货分享】AIOps之根因分析

本文将给出基于决策树的智能根因分析方法,针对多维找出导致问题的根因。做数据、搞AI一定要基于具体业务,不可脱离业务谈数据、算法,否则将得不偿失。

2.1K10

扫码关注云+社区

领取腾讯云代金券