腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

企鹅号快讯

企鹅号技术类相关资讯

专栏作者

3887

文章

4503766

阅读量

291

订阅数

机器学习必知的15大框架

深度学习机器学习大数据 spark

机器学习工程师是开发产品和构建算法团队中的一部分，并确保其可靠、快速和成规模地工作。他们和数据科学家密切合作来了解理论知识和行业应用。数据专家和机器学习工程师的主要区别是：机器学习工程师构建、开发和维护机器学习系统的产品。数据专家进行调查研究形成有关于机器学习项目的想法，然后分析来理解机器学习系统的度量影响。下面是机器学习的框架介绍： Apache Singa 是一个用于在大型数据集上训练深度学习的通用分布式深度学习平台，它是基于分层抽象的简单开发模型设计的。它还支持各种当前流行的深度学习模型，有

企鹅号小编

2018-01-10

6140

spark 大数据分布式

上次给大家讲了Spark local模式的启动安装和使用，现在给大家分享一下Standalone模式下的使用和安装。这个讲完以后，还有yarn和mesos下集群的安装和使用。 Spark on local Cluster伪分布式即Spark Standalone模式。此时Spark会使用Standalone的集群管理器(Cluster Manager)启动Spark。这种模式，也可以称为Spark的伪分布式。 Standalone集群管理器是Spark实现的资源调度框架，其主要的节点有Client节点、

企鹅号小编

2018-03-02

1.1K0

什么是 Apache Spark？大数据分析平台详解

apache spark 大数据分布式

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。 📷 非常好，Spark 可以运行在一个只需要在你集群中的

企鹅号小编

2018-02-13

1.5K0

大数据处理框架是怎样的原理

spark 大数据 hadoop

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。组件之间的这种互操作性是大数据系统灵活性如此之高的原因之一。虽然负责处理生命周期内这一阶段数据的系

企鹅号小编

2018-02-06

8880

简谈Spark Streaming的实时计算整合

spark 大数据云数据库 Redis 数据库

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我们的应用场景是分析用户使用手机App的行为。手机客户端会收集用户的行为事件（我们以点击事件为例），将数据发送到数

企鹅号小编

2018-02-05

9990

年终盘点：2017年数据科学发展的新趋势

大数据 spark apache

【IT168 评论】2001年，Gartner给出了大数据的概念，即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征，即海量、速度和多样性，也很明确的为我们指出了大数据在哪些方面存在挑战。但是，16年过去了，现在大数据发展仍然没有达到边界，还是一个充满想象力的领域。因为数据的存在，让很多新的行业焕发出了无限的价值，社交媒体网站可能就是一个典型的例子。对于企业来说，目前的主要问题就是如何使用收集来的数据创造价值。为此

企鹅号小编

2018-01-26

5140

又到年底了，明年该学点啥呢？

spark 大数据

前几天，在知乎上看到这样一个问题：问 “Java、C++、Python、Go、Js等语言，未来几年内，学哪个更容易找工作？很多新人会纠结于第一门语言该学啥，比如后端开发，Java、Python、Go都可以，但总不能一口气学三门吧？最关心就业，学完容易找工作最重要，想请教各位学什么好？” 这些话说到了我的心坎里，共鸣多，和我刚毕业时的疑惑一样，只可惜那时候没人指点我。我认真研究了众多大牛的高见，综合整理后，给大家一份回答。切记，适合自己的才是最好的。我会对这些语言做一个剖析，最后给你一个建议。 1 Ja

企鹅号小编

2018-01-24

7470

看机器学习如何还原图像色彩

机器学习 spark java 图像处理

【译者注】在本文中，作者提出了使用k-means算法来对图像进行色彩还原，介绍算法的步骤，同时应用在图像上，通过对比还原前后的图像，来证明k-means算法的有效性。以下为译文： k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面。所以你可以很容易地用不同的图像来做实验。在Git

企鹅号小编

2018-01-15

9760

你了解你的数据吗

运维 spark 人工智能 hadoop

0x00 前言你了解你的数据吗？前几天突然来了点灵感，想梳理一下自己对数据的理解，因此便有了这篇博客或者说这系列博客来聊聊数据。数据从业者有很多，比如说数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师、数据产品经理等等，不同岗位的童鞋对数据的理解有很大的不一样，而且侧重点也不同。那么，是否有一些数据相关的基础知识是所有数据从业者都值得了解的？不同的岗位对数据的理解又有多大的不同？数据开发工程师是否有必要去了解数据分析师是如何看待数据的？本系列博客会尝试去学习、挖掘和总结这些内容，在数据的海

企鹅号小编

2018-01-12

8560

数据专家必知必会的 7款Python 工具

英文：Dynelle Abeyta译文：oschina www.oschina.net/translate/seven-python-tools-all-data-scientists-should-

企鹅号小编

2018-01-12

9640

如何成为大数据Spark高手

大数据 spark hadoop

企鹅号小编

2017-12-29

1.3K0

基于区块链与大数据构建共享经济基石

spark 大数据 hadoop

导读：将区块链技术或者其采用的算法证明机制引入共享经济，可以建成一个完全透明、无主、分散的共享平台和系统。能在没有任何形式中介的情况下，保证各种交易方安全进行交易，这些交易方包括个人、企业甚至是政府。区块链有可能成为共享经济或者互联网的基石，在未来，区块链会上升到数据治理和经济治理层面，从而极大地改变经济模式，改变我们整个世界的生产和运营模式。且随郭树行博士一起了解一下基于区块链与大数据如何构建共享经济基石。 ▌区块链与大数据的发展差距大数据，需要应对海量化和快增长的存储，这要求底层硬件架构和文件系统在性

企鹅号小编

2018-01-10

1.7K0

spark环境构建（4）

zookeeper spark hadoop

作者：王远东，重庆芝诺大数据分析有限公司大数据开发工程师。提前说明一下，大数据的搭建环境都是在Linux系统下构建，可能针对一些没有Linux编程基础的同学来说会有一些吃力，请各位客官放心，小店伙计后期会专门有几期来讲解Linux编程基础。绝对保证零基础完成大数据环境的构建。今天大数据环境构建后会暂停其他组件（hue、flume、kafka、oozie等）的构建，后面的文章就是基于该环境讲解大数据的应用。一安装zookeeper 参考：大数据开发Hadoop分布式集群环境构建（1）二安装spar

企鹅号小编

2018-01-10

7350

什么是流式计算另一个世界系列

大数据 spark 数据库安全 apache

另一个世界系列，从另一个角度看数据分析的方法、应用。本文结构： 1、数据的时效性 2、流式计算与批量计算 3、总结与相关产品 (1) 流式计算流程 (2) 流式计算特点 (3) 相关产品 1、数据的时效性日常工作中，我们一般会先把数据储存在一张表中，然后对这张表的数据进行加工、分析。既然数据要储存在表中，就有时效性这个概念。如果我们处理的是年级别的数据，比如人口分析、宏观经济分析，那么数据最新日期距今晚个一两周、甚至一两个月都没什么关系。如果我们处理的是天级别的数据，比如各大网站的用户偏好分析、零售

企鹅号小编

2018-01-10

2.5K0

好书收藏！大数据领域十本有价值的书（二）

大数据 spark 人工智能

《好书收藏！大数据领域十本有价值的书（二）》推荐了六本大数据领域的书籍，包括《大数据处理之道》、《大数据基础与应用》、《超越大数据》、《爆发：大数据时代预见未来的新思维》等。这些书籍涵盖了大数据处理、应用、历史、技术等方面的内容，对于大数据爱好者、企业决策者、大数据架构师等具有较高的参考价值。

企鹅号小编

2018-01-09

6620

python资料汇总

爬虫大数据 spark python

本文介绍了如何通过Python实现分布式爬虫、人工智能、数据分析等方面的应用，并提供了一些学习资源和工具。通过这些技术和工具，用户可以快速掌握Python编程，提高自己的技能水平。

企鹅号小编

2018-01-08

1.2K0

关于大数据你需要知道的一切

数据库 hadoop mongodb spark

📷 摘要：分析大量的数据只是使大数据与以前的数据分析不同的部分，还需要了解其他三方面是什么。人类每天都吃、睡、工作、玩，这生产数据并且是大量的数据。根据IBM的数据，人类每天产生2.5万亿(250亿

企鹅号小编

2018-01-08

6610

关于数据分析的一点思考

spark 大数据

企鹅号小编

2018-01-05

5800

提高Spark姿势水平 No.73

spark 数据库 hadoop

本文介绍了如何利用Spark进行大数据处理，包括五个步骤：数据导入、数据转换、数据计算、数据分析和数据可视化。同时，本文还介绍了Spark在机器学习、图计算和流处理等方面的应用。最后，本文提供了一些Spark的优化建议，包括调整Spark配置、使用持久化存储和优化Shuffle等。

企鹅号小编

2018-01-04

7300

Mycat-数据库分库分表中间件，国内最活跃的、性能最好的开源数据库中间件！

云数据库 SQL Server 数据库 spark 分布式

企鹅号小编

2018-01-04

3.9K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态