【微报告】校园行(上)之社交大数据概念理解及应用案例

一、大数据

1、大数据时代

随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。

在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。据IDC研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!

2、大数据的构成

大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案

海量交易数据:

企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

海量交互数据:

源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

海量数据处理:

大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。

注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂

3、大数据的特征

(1)海量(Volume)

数据量巨大:全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量。

(2)多样(Variety)

结构化数据、半结构化数据和非结构化数据:如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求。

(3)速度(Velocity)

实时获取需要的信息:比如,在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时。

(4)价值(Value)

沙里淘金,价值密度低:虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题。

二、微博社交大数据应用案例

案例一:用户画像体系

每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进行精准投放。

用户画像之用户兴趣标签

用户关注关系识别用户兴趣

垂直意见领袖(KOL)在各行业推广中独领风骚;在该领域中具有较高知名度和影响力,且在微博中有较好的活跃度。

美食

旅行

用户博文类型识别用户兴趣

博文类型识别过程 ---- 文本分类过程

文本分类是将未知类型内容的文本,将其判别为事先确定的文本类型中的某一类或某几类的过程。微博的文本分类是指根据博文的内容,将博文打上主题标签,如体育,旅游,星座等。

文本分类的基本实现途径

(1)基于知识的途径(又称基于规则)

基于知识的方法,需要领域从业者将进行文本分类时所用到的知识或经验归纳出来,并表示为类似于“如果文本满足条件甲,那么该文本属于类别A”,“如果文本满足条件乙,那么该文本不属于类别B”,然后基于这些分类规则,建立起用于文本自动分类的专家系统。

缺点:面临着知识获取与知识表示的瓶颈问题

(2)基于机器学习的途径

搜集带有标号的样本(即训练样本),利用机器学习技术即可从中自动提取出有关分类规则(即模型),从而利用训练好的模型进行预测。

优点:同基于知识的自动文本分类系统相比,基于学习的系统可以大大缓解知识获取与知识表示问题。

基于机器学习的文本分类基本识别流程

文本分类常用一些算法

分词常用方法:词典,张华平博士ICTCLAS分词包,ansj分词包,N-Gram分词法等

特征选择常用方法:文档频率DF,信息增益,互信息, (CHI)统计等

特征权重计算方法:TF-IDF方法的各种变种

分类的常用方法:1. Rocchio方法---相似度计算方法 2. Naive Bayes ---贝叶斯方法 3. KNN方法----K近邻方法 4. Logistic Regression——逻辑回归 5. Decision Tree ----决策树 6. Neural Networks---神经网络 7. Svm----支持向量机 8.---基于投票的分类方法 等

什么是逻辑回归?

逻辑回归( Logistic Regression 简称LR )可以说是互联网领域应用最广的自动分类算法,逻辑回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。如果是连续的,就是多重线性回归;如果是分类型,就是Logistic回归;

逻辑回归的主要用途:

Logistic回归在流行病学中,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

Regression问题的常规步骤为:

1.寻找h函数(即hypothesis);

2.构造损失函数J;

3.想办法使得J函数最小或最优,并求得回归参数(θ)

预测概率>0.9识别部分结果

浙江旅游行业用户兴趣分布

案例二:微博事件研究

事件预警:对微博中发生的重大事件进行监控,及时发出通知,编辑或运营人员高效快速的完成内容的创作或采取相应的运营策略。

事件演变分析

记录事件的演变过程,分析事件的发展态势。

案例三:相似文本研究

在某些内容的聚合页(如某些话题聚合页面等),存在内容重复或及其相似的现像,会导致信息呈现不够多元化和丰富性,引起视觉疲劳。

相似度计算流程

常见计算相似度的一些方法:1. 雅卡尔系数 2. Dice系数 3. 余弦相似度 4.皮尔森相关性 等

相似度较高文本识别效果

来自新浪微报告

本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系4000-707-620

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-05-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

干货 | 猿桌会 56 期 - 葛笑雨:应用于智能体的空间物理定性推理技术

近年来人工智能技术突飞猛进,越来越多的机器人正在走进我们的世界。与人类一样,机器人在执行日常任务时往往需要具备一定的空间物理推理能力。具备这种能力不仅使机器人可...

1372
来自专栏数据的力量

用户增长分析系列:用户流失预警

针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户...

2263
来自专栏人工智能头条

美丽联合机器学习应用探索:用更强大的模型,干净解决问题

2352
来自专栏机器之心

业界 | 如何评估深度学习的性能?英伟达提出7大挑战

1695
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

1523
来自专栏腾讯云技术沙龙

王珺:智能音箱语音技术分享

这次分享介绍了在研究方面的一系列新的方法和改进,主要是语音识别,语音识别,声纹识别,以及TTS,在落地应用方面,语音识别中心为多个腾讯的产品有技术支持的输出,如...

8516
来自专栏ThoughtWorks

建立属于你的智能客服 | 洞见

背景 很多人问,对话式交互系统就是语音交互么?当然不是。语音交互本身真的算不上新概念,大家可能都给银行打过电话,“普通话服务请按1,英文服务请按2……返回上一层...

3227
来自专栏CSDN技术头条

在人工智能和大数据产品的开发中,有哪些需要特别注意的点?

人工智能是近年来科技发展的重要方向,大数据的采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据产品的开发过程中,有哪些特别需要注意的要点?人工智能领域的算...

1937
来自专栏目标检测和深度学习

业界 | 如何评估深度学习的性能?英伟达提出7大挑战

1674
来自专栏机器之心

学界 | OpenAI竞争性自我对抗训练:简单环境下获得复杂的智能体

机器之心编译 选自:OpenAI 参与:蒋思源、刘晓坤 OpenAI 近日表示通过自我对抗训练的竞争性多智能体可以产生比环境本身复杂得多的行为。该研究基于 Do...

3765

扫码关注云+社区

领取腾讯云代金券