大数据

一、什么是大数据

5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、科学研究、政策制定

二、大数据主要任务

1、Fetching 采集/爬虫/抓取

实战案例

任务:1000个查询,整理各大搜索引擎的结果url。循环取得网址,获取内容,存储。

优化及改进1:单线程下载太慢,单线程->多线程

优化及改进2:创建线程开销大,多线程->线程池

优化及改进3:消费者和生产者模型,Producer负责生产数据,Consumer负责使用数据,统一进程,不同线程。

多线程的优点:便于变量和数据共享。利用线程池方便控制。

多进程的优点:稳定和健壮。本例倾向于多进程。

优化和改进4:引入队列。放入与取出url。

队列爆满问题;开源工具Rabbitmq、zeromq、redis

获取内容问题:Httpclient&URLCollection(Java)、urllib2(Python)、socket(C)

抓取受阻问题:代理ip+cookie+友好访问+Selenium

抽取信息问题:正则+Jsoup/Tika+模板

2、Storage 数据存储/分布式系统/数据库

NoSQL means Not Only SQL

MySQL的缺点:

Schema-based 不好水平拆分,不适合互联网环境

Transactions 分布式环境难以实现

Traditional applications 并发能力差(lock)

Disk-based 速度慢

解决方案:

NoSQL: 键值存储系统(redis:hashmap)+无模式文档存储系统(mongodb)

Redis:效率高,读写快,数据结构丰富,支持Java、C++、Python等语言

3、Mining 数据挖掘/机器学习/推荐系统

包含:数据挖掘、机器学习、自然语言处理、推荐系统、社交网络,搜索引擎

社交网络:Weibo、Twitter、Facebook 应用:社团发现、僵尸粉/水军、情感分析/性格判断

例如:判断一个僵尸粉(特征:转发关注广告多、原创粉丝少)

机器学习:预测:分类&回归 特征抽取->标注数据->模型选择->模型训练->得到模型->模型验证

人工智能:基于规则的专家系统(人)+基于数据的机器学习(数据) “有多少人工,就有多少智能”

数据挖掘:目的:发现数据的规律和模式 例如:疾病诊断

自然语言处理:分词

推荐系统:”购买此商品的顾客也购买了“ 依赖于业务和场景,喜好程度

基于用户推荐:相似权重,归一化 基于物品推荐:用户画像,商品描述

并行还是串行设计

接下来问题:稀疏数据、模型拓展、在线学习、可解释性

4、Processing Hadoop/Spark/VW/Mathout

三、需要思考的问题

1、是否真的需要大数据?简单的规则+统计->也许能解决问题

2、是否需要很复杂前沿的算法?更多的数据->也许能见效果

四、如何成为一个数据科学家

1、数学基础

高等数学 线性代数 概率论

2、编程语言基础

首选Python,其他C++、Java、R

3、算法和模型(理论)

机器学习 数据挖掘 推荐系统 自然语言处理

4、开源库(工具)

单机:Scikit Learn

分布式:Spark

5、实践

阿里巴巴大数据竞赛/Kaggle等

本文参考叶邦宇的一个talk总结而来。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

DDD实战篇:分层架构的代码结构

不同于其它的架构方法,领域驱动设计DDD(Domain Driven Design)提出了从业务设计到代码实现一致性的要求,不再对分析模型和实现模型进行区分。也...

3384
来自专栏跨界架构师

软件开发中会用到的图

  大家应该在从事软件开发领域工作时间有一段时间之后,就开始有画图的意识,不管是懵懂的学别人还是想更好的让其它人理解自己的一个观点。所谓“一图胜千言”,我们身处...

1722
来自专栏机器人网

【回顾】2017年最受欢迎的十大机器学习Python库

2017 年即将结束,又到了总结的时刻。本文作者把范围限定为机器学习,盘点了 2017 年以来最受欢迎的十大 Python 库;同时在这十个非常流行与强大的 P...

3148
来自专栏人工智能头条

深入了解推荐引擎组件(基于Apache Mahout和Elasticsearch)

2345
来自专栏数据科学与人工智能

推荐系统设计方法论

一、前言 结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块。 系统推荐: 根据大众行为的推荐引擎,对每个用户都给出同...

4678
来自专栏量子位

机器学习论文+代码大全,这个网站请收藏好

一个网站,关于机器学习的网站,在著名的reddit上获得国外网友的热情追捧。如果你要问为什么,其实特别简单。

1432
来自专栏新智元

【EMNLP2018干货】为NLP研究写出好代码(254页教程)

来源:专知(Quan_Zhuanzhi) 作者:{joelg,mattg,markn}@allenai.org

1094
来自专栏机器之心

业界 | 提供免费计算资源,开发平台AI Studio零门槛实现AI能力

AI Studio 是百度推出的一站式开发平台:一个囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算的一体化编程环境。用户不必纠结于复杂的...

1610
来自专栏新智元

OpenAI 开源集成自驾开发环境 Universe+GTA V,含代码及预训练 AI 代理

由 Craig Quite 的 DeepDrive 项目搭建和维护的、加入了 Grand Theft Auto V 的 Universe(OpenAI 的人工智...

43413
来自专栏ATYUN订阅号

AMD的ROCm GPU现已支持TensorFlow

AMD宣布推出支持TensorFlow v1.8的ROCm GPU,其中包括Radeon Instinct MI25。这是AMD加速深度学习的一项重要里程碑。

1.2K2

扫码关注云+社区

领取腾讯云代金券