首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2440840
阅读量
187
订阅数
【资讯】7个图告诉你IBM100年来变了什么,不变的是什么
现在提起 IBM,你会想到什么? 很可能是 ThinkPad 电脑或者打败象棋世界冠军的深蓝计算机。 自从 2005 年剥离个人电脑业务后,我们越来越少在生活里看到 IBM 的痕迹。取而代之的则是偶尔在杂志上瞥到的广告语,诸如“智慧地球”、“智慧的计算始于云端”之类让人有些疑惑的标语。 此外出现最多的可能就是卖业务的新闻,继今年一月 IBM 把 x86 服务器业务卖给联想后,又几次传出它希望尽快脱手芯片业务的消息——就是苹果电脑和微软 Xbox 360 游戏机一度依赖的处理器。彭博社本周爆料称 IBM 甚至
小莹莹
2018-04-25
7170
【学习】深度解析LinkedIn大数据平台(二):数据集成
第二部分:数据集成 请让我首先解释 一下“数据集成”是什么意思,还有为什么我觉得它很重要,之后我们再来看看它和日志有什么关系。 数据集成就是将数据组织起来,使得在与其有关的服务和系统中可以访问它们。“数据集成”(data integration)这个短语应该不止这么简单,但是我找不到一个更好的解释。而更常见的术语 ETL 通常只是覆盖了数据集成的一个有限子集(译注:ETL,Extraction-Transformation-Loading的缩写,即数据提取、转换和加载)——相对于关系型数据仓库。但我描述的
小莹莹
2018-04-25
8700
【观点】世界顶尖数据科学家看未来十年大数据发展
过去,科学家经过十年的研究才首次破解人类DNA。而13年后的今天,这项工作在24小时之内就能完成。 一直以来,我们都在不断改进数据处理工具。数据数量也在过去十年间爆炸式增长。那么,还有创新的空间吗?未来还会给我们新颖的启示,还会令人瞠目吗? 在这一点上,我们无须再猜。 让我们来看看,数据科学界的顶尖大师们是如何看待未来十年大数据发展的,他们又对大数据未来如何改变世界作何猜想。 简单化是新潮流 首先,数据分析将变得更加“傻瓜式”。商业数据分析工具将不再对编程能力提出要求。不论是应用还是研发,都会变得非常简
小莹莹
2018-04-25
7390
Apache Spark新方向:深度学习和流式数据处理支持
6月5~7日,Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了 《E
小莹莹
2018-04-24
1.1K0
【微报告】校园行(上)之社交大数据概念理解及应用案例
一、大数据 1、大数据时代 随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。
小莹莹
2018-04-24
8290
Spark Streaming场景应用- Spark Streaming计算模型及监控
摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。 一、概述 数据是非常宝贵的资源,对各级企事业单均有非常高的价值。但是数据的爆炸
小莹莹
2018-04-24
1.3K0
【案例】美国梅奥诊所使用大数据,让更多患者受益
  梅奥诊所是一家非盈利性的医疗机构,在医疗护理、医学研究和教育领域处于世界领先地位。2004年梅奥诊所营业额56亿美元、有51万新病人、总门诊量2百万、13万人次入院、近60万人天住院,如今也有已有140多年历史。是世界医疗领域当之无愧的医疗体系品牌。   经验对于在医疗等行业中应用大数据有着重要意义:   1. 数据类型:每年有来自全部50个州和近150个国家/地区的100多万人到梅奥诊所接受治疗。这是很大数量的人群,您可能会认为梅奥诊所面临常见的数据处理问题。  相反,医疗数据的真正问题是它往往
小莹莹
2018-04-23
8750
【数据海洋】数据挖掘与统计分析的区别
我们过去曾给予数据挖掘方法智能的生命力,把它看作商务智能重要的发展方向。但统计学作为一个学科是否应该关心它的发展。我们是否应该将它看成统计的一部分?那意味作什么?最起码它表明我们应该:在我们的杂志上发
小莹莹
2018-04-23
1.1K0
【职业】与大数据相关的工作职位有哪些?
上一篇我们回答了《现在学习大数据晚吗?》,我们陆续收到了大家的一些反馈,针对大家的问题,我们后续会继续挑一些有代表性的问题继续回答。 在回答《与大数据相关的工作职位有哪些?》,让我们先看一段对话: 小袁:我是一只苦逼的程序猿,俗称技术屌丝男,还属于码农阶段,起早贪黑不分时间,没房没车没对象,每天除了代码,就是BUG,觉得暗无天日,没有钱途,现在想换相关的职业,不知道DOCTOR V有什么可以介绍的? Doctor V:云计算的实现,咱们迎来了大数据时代,而基于数据处理和开发,有几个职位想必你会感兴趣,
小莹莹
2018-04-23
3.3K0
【聚焦】数据人的痛苦:提供的数据用不上
大数据变革在数据本身 ━━━━━━━━━━━━━━━━ 📷 大数据公司最大的痛苦是什么?不是没有数据,而是有太多的数据。各种各样包括结构性和非结构性的数据从四面八方而来,但哪些是有用数据,如何捡选数据,才是最大的难题。 巧遇到谷歌的前数据部门leader,他跟我说了一件他觉得很痛苦的事:提出数据需求的人往往70%的情况又不用提供给他的数据。他为此非常生气,便质问业务方:为什么你们老问我要数据,结果却不用?业务方回答说:是的,因为我用完之后才知道这些数据没有用。对于一个每天都要准备数据的人来说,这
小莹莹
2018-04-23
6610
【聚焦】大数据处理技术的活用实例
持续增加的会员数据、透过各种感测仪器收集的数据、社群网站上被写入的Text数据等,企业内所接触、流通的数据正爆炸性地増加中。科技日新月异的今天,透过技术革新,可收集与处理各种庞大信息。身处瞬息万变事业环境中的企业而言,如何活用企业内外充斥的『大数据』,成为提升企业竞争力不可或缺的要素。 各种感测仪器收集到的信息,透过大数据处理平台,从数据的收集、加工、储存、分析到应用,已经在金融与通讯领域具备建构大量数据处理系统的豊富经验。此外,在能源、交通、公共安全等社会基础设施领域,亦可藉由创造有价值
小莹莹
2018-04-23
7720
我们的挚爱——数据科学技术
数据科学家最爱的几款工具! 一个能干的数据科学家经常被看作是分析学中额的独角兽,这是因为他们的工作往往需要深厚的数学和统计学的知识、熟悉计算机科学,还要有掌握一些商务技能。同时掌握这么多的技能是需要耗费大量的时间、全身心的投入以及保持足够的好奇。这对于那些不是真正的热爱用大数据回答大问题的人来说是不可能实现同时掌握这么多技能的任务的。庆祝情人节当天,我们团队自问到底是什么数据科学工具、技术激发了我们对于冷冰冰的量化分析的热情。下面这些就是他们不得不说的。 并行处理:GPUs(图形处理器)为数据探索松绑
小莹莹
2018-04-23
6420
机器学习系列:(三)特征提取与处理
特征提取与处理 上一章案例中的解释变量都是数值,比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章,我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化,更是机器学习的基础,影响到本书的所有章节。 分类变量特征提取 许多机器学习问题都有分类的、标记的变量,不是连续的。例如,一个应用是用分类特征比如工作地点来预测工资水平。分类变量通常用独热编码(One-of-K or One-Hot Encoding),通过二进制数来表示每个解释变量的特征。 例如,假设city变
小莹莹
2018-04-23
1.9K0
【V课堂】数据挖掘知识脉络与资源整理(二)R语言
简介: R是用于统计分析与绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据
小莹莹
2018-04-23
5720
【V课堂】R基本操作函数脉络图
如果你使用R做数据分析,你一边会感到无比的便捷,一边也会感到苦恼,便捷在于它丰富的功能和简单的代码,通常使用几行代码就能解决一个很复杂的事,这得益于他丰富的package,使得我们能方便的实现自己的想法,苦恼的是,由于众多函数,和各种不一的package提供功能类似的函数,使得我们记忆函数变得困难,因为他们之间没有统一的语法规范,这要让我们花很多时间去学习软件的本身,这就本末倒置了,下面这张图就简单的整理了一下常用的基础功能,使得我们记忆更清晰. 从基本操作到数据处理,举的都是比较常用的函数,这些都值得我们
小莹莹
2018-04-23
6360
【V课堂】R语言十八讲(六)
前面我们讲了许多数据处理阶段使用的函数,但是,仔细的读者可能发现了,函数全是数值统计型的,我们在做数据处理时,经常会碰到处理字符的情况,像变量的名字,像产品的名字,代码,网址分析,文本挖掘需要的文本分析,故这一讲就主要集中来讲字符处理函数,这样分块讲,有弊端,就是在工作中经常是数值,字符一起都会遇到,一个好处就是,对于初学者来说,方便记忆,条理清楚,在使用函数的时候,减少错误.下面介绍的字符处理函数也尽量的分块进行. 1、查询类函数. 2、分割类 3、结合类 4、提取类 5、替换类
小莹莹
2018-04-23
6480
浅谈数据处理中的相关分析
大数据的发展经历了从因果分析到相关分析的转变。宏观上来讲,如果两个事务存在某种统计学意义上的依赖性就称两者具有相关性。这里我们就简单聊聊各种相关分析的方法。 1 先以电商中的商品推荐为例,来看看最基本
小莹莹
2018-04-20
1.1K0
R语言什么鬼??你知道吗?
R语言什么鬼?可以用来做什么?和大数据又有什么关系?有没有好的课程推荐啊?学大数据一定要懂R语言么?…… 网络上太多类似的问题,如果恰好你也有类似的疑惑,那么希望阅读本文之后你不再困惑~ 〓R语言简介: R是一套完整的数据处理、计算和制图软件系统。 其功能包括: 数据存储和处理系统; 数组运算工具(其向量、矩阵运算方面功能尤其强大); 完整连贯的统计分析工具; 优秀的统计制图功能; 简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种
小莹莹
2018-04-20
1.6K0
怎样判断一个人是否适合做数据分析?
部门要找几个人做数据分析。现几个人原来是在不同的岗位上的,以前没有做过数据分析,怎么样才能看看出他们是不是适合做数据分析呢,在进行竞聘时使用什么样的题目会比较合适有效呢? 大家有何妙招没? 《网站分析实战》作者joegh支招: 我觉得无论什么工作兴趣最重要,要做数据分析师最基本的就是不讨厌数字,如果你跟他讲那个指标是通过怎么样的乘除加减得到的,他会觉得不耐烦,那么显然他不适合做数据分析;如果对数据较敏感,能够一眼发现异常值,数据分布情况,当然是最好的。 再则就是逻辑性,可以让他试试爱因斯坦的那道经典的逻辑题
小莹莹
2018-04-20
1K0
【数据可视化专题】22个免费的数据可视化和分析工具推荐
本文总结推荐22个免费的数据可视化和分析工具。列表如下: 数据清理(Data cleaning) 当你分析和可视化数据前,常需要“清理”工作。比如一些输入性列表“New York City” ,同时其
小莹莹
2018-04-20
2.8K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档