数据科学与人工智能-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据科学与人工智能

专栏成员

811

文章

1061278

阅读量

171

订阅数

数据科学|Hive SQL语法总结

hive hadoop sql 数据库 mapreduce

Hive是一个数据仓库基础的应用工具，在Hadoop中用来处理结构化数据，它架构在Hadoop之上，通过SQL来对数据进行操作，了解SQL的人，学起来毫不费力。

陆勤_数据人网

2019-12-31

1.8K0

【资料】7篇重要的数据科学论文

大数据 go 编程算法 hadoop mapreduce

这是回到学校的时间，这里有一些论文让你在这个学年忙碌。所有论文都是免费的。这份清单远非详尽无遗，但这些是数据科学和大数据方面的一些重要论文。

陆勤_数据人网

2018-10-08

1.2K0

【大数据框架】Hadoop和Spark的异同

大数据 hadoop spark apache

谈到大数据，相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上，并没有对它们进行深入的思考，下面不妨一起看下它们究竟有什么异同。 1 解决问题的层面不一样首先，Hadoop 和 Apache Spark 两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop 实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop 还会索引

陆勤_数据人网

2018-02-27

7100

【Spark框架】运用Spark加速实时数据分析

spark 数据分析 apache hadoop

Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统，并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献，并且为各个组织提供了许多工具来管理不同大小规则的数据。在过去，Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而，随着信息化时代的发展，越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动，其中包括最近发展的流媒体技术、物联网、实时分析处理，这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天

陆勤_数据人网

2018-02-27

7220

【Hadoop研究】Hadoop YARN的发展史与详细解析

hadoop yarn 大数据 mapreduce

【编者按】成熟、通用让Hadoop深得大数据玩家喜爱，即使是在YARN出现之前，在流处理框架林立下，Hadoop仍然被众多机构广泛运用在离线处理之上。借鉴于Mesos，MapReduce获得新生，YARN提供了更加优秀的资源管理器，让Storm等流处理框架同样可以运行在Hadoop集群之上；但是别忘记，Hadoop有着远比Mesos成熟的社区。从兴起到唱衰再到兴起，这头搬运大数据的大象已更加成熟、稳重，同时我们也相信，在未来container等属性加入后，Hadoop生态系统必将发扬光大。以下为文章内容

陆勤_数据人网

2018-02-27

1.1K0

【Hadoop研究】YARN：下一代 Hadoop计算平台

hadoop 大数据分布式

Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案，但大型开发人员社区仍在不断改进它。最终，2.0 版提供了多项革命性功能，其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可用的 NameNode，它使得 Hadoop 集群更加高效、强大和可靠。在本文中，将对 YARN 与 Hadoop 中的分布式处理层的以前版本进行

陆勤_数据人网

2018-02-27

1.2K0

【Hadoop研究】Hadoop分布式文件系统HDFS的工作原理详述

hadoop 分布式

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。要理解HDFS的内部工作原理，首先要理解什么是分布式文件系统。 1、分布式文件系统多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题，这样的系统我们称之为分布式系统。分布式文件系统是分布式系统的一个子集，它们解决的问题就是数据存储。换句话说，它们是横跨在多台计算机上的存储系统。存

陆勤_数据人网

2018-02-27

9780

【Spark研究】Spark之工作原理

spark apache hadoop mapreduce

基本概念理解Spark的运行模式涉及一系列概念：（1）Cluster Manager：在集群上获取资源的外部服务。目前有三种类型：1. Standalone, Spark原生的资源管理；2. Apache Mesos, 和Hadoop Mapreduce兼容性良好的资源调度框架；3. Hadoop Yarn, 主要指YARN中的ResourceManager. （2）Application: 用户编写的应用应用程序。（3）Driver: Application中运行main函数并创建的SparkC

陆勤_数据人网

2018-02-27

1.3K0

【Spark研究】极简 Spark 入门笔记——安装和第一个回归程序

spark 数据处理 hadoop

现在的各种数据处理技术更新换代太快，新的名词和工具层出不穷，像是 Hadoop 和 Spark 这些，最近几年着实火了一把，但自己一直没精力和时间去尝试和学习。特别是听说这些工具配置起来比较复杂，就更懒得去折腾。在这一点上，果然是不如从前了。然而绝知此事要躬行。即使将来不一定会花大功夫在这上面，但对它们有些基本的了解总是好的。听说 Spark 有一段时间了，但一直是只闻其名不见其实，今天就来简单记录一下初学 Spark 的若干点滴。 Spark 是什么按照 Spark 官方的说法，Spark 是一个快速

陆勤_数据人网

2018-02-27

9530

【数据科学】怎样进行大数据的入门级学习？

大数据 hadoop mongodb

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。但从狭义上来看，我认为数据科学就是解决三个问题： 1. data pre-processing;(数据预处理） 2. data interpretation;（数据解读） 3.data modeling and analysis.（数据建模与分析）这也就是我们做数据工作的三个大步骤： 1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据； 2、我们想看

陆勤_数据人网

2018-02-27

7030

【数据科学】大数据思维的十大原理：当样本数量足够大时，你会发现每个人都是一模一样的

大数据 hadoop 分布式

大数据思维原理是什么？笔者概括为10项原理。一、数据核心原理从“流程”核心转变为“数据”核心大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求，将改变IT系统的升级方式：从简单增量到架构变化。大数据下的新思维——计算模式的转变。例如：IBM将使用以数据为中心的设计，目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下，云计算找到了破茧重生的机会，在存储和计算上都体现了数据为核心的理念。大数据和

陆勤_数据人网

2018-02-27

1.4K0

【数据科学】需求高涨的数据科学家

大数据数据库 sql 数据分析 hadoop

从技术方面来看，硬盘价格下降，NoSQL数据库等技术的出现，使得和过去相比，大量数据能够以廉价高效的方式进行存储。此外，像Hadoop这样能够在通用性服务器上工作的分布式处理技术的出现，也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。然而，就算所拥有的工具再完美，它本身是不可能让数据产生价值的。接下来我们还需要能够运用这些工具的人才，他们能够从堆积如山的大量数据中找到金矿，并将数据的价值以易懂的形式传达给决策者，最终得以在业务上实现。具备这些技能的人才，就是在大数据浪潮如火如荼的美国目前

陆勤_数据人网

2018-02-27

1.1K0

【Python环境】IT屌丝如何成为数据科学家？

python hadoop java 编程算法

那么，对于不同职业经历和专业背景的IT人士来说，如何才能尽快转型，加入数据科学家的钻石王老五的行列呢？ Ofer Mendelevitch近日在Hortonworks官方博客发表文章给出了自己的观点。 Mendelevitch认为无论是Java程序员还是业务分析师都有机会成为数据科学家，以下是他对不同人群给出的具体建议： Java程序员作为Java开发者，你对软件工程的规则已经了然于心，能够设计软件系统执行复杂任务。数据科学正是关于开发“数据产品”的一门科学，主要是基于数据和算法的软件系统。对于Java

陆勤_数据人网

2018-02-26

5750

【陆勤践行】数据科学家自我修养——一份数据科学的开放课程清单

大数据数据分析 hadoop python

数据科学家自我修养——一份数据科学的开放课程清单最近一年以来，大数据这个概念被吹嘘的天花乱坠，仿佛你要是不说大数据就落伍了。继云计算之后，大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感，既代表着难以名状的诱惑，又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据，什么是数据科学，而是想以个人过去接近2年时间通过MOOC（开放课程）来学习数据科学的实践来给出一份个人建议的数据科学学习之路的课程清单。数据科学家的自我修养 Drew Conway

陆勤_数据人网

2018-02-26

7760

【陆勤践行】大数据新手入门：给刚玩Hadoop的朋友一些建议

大数据 hadoop

文|Slaytanic 随着两会中间央视新闻天天说大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。关于Hadoop版本的选择？目前为止，作为半只脚迈进Hadoop大门的人，我建议大家还是选择Hadoop 1.x用。可能很多人会说，Hadoop都出到2.4，为啥还用1.x呢，说这话一听就没玩过hadoop。理由一： Hado

陆勤_数据人网

2018-02-26

5350

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态