腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

CSDN技术头条

专栏作者

1128

文章

1404473

阅读量

132

订阅数

快速入门深度学习，从 Deeplearning4j 开始

java 开源 spark 深度学习神经网络

随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟，越来越多的 AI 产品得到了真正的落地。

CSDN技术头条

2019-11-19

1.1K0

Java 工程师快速入门深度学习，从 Deeplearning4j 开始

java 开源 spark 深度学习分布式

随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟，越来越多的 AI 产品得到了真正的落地。

CSDN技术头条

2019-11-19

5390

Livy：基于Apache Spark的REST服务

spark 大数据

Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活，但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务，它不仅以REST的方式代替了Spark传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。背景 Apache Spark作为当前最为流行的开源大数据计算框架，广泛应用于数据处理和分析应用，它提供了两种方式来处理数据：一是交互式处理，比如用户使用spark-shell或是pyspark脚本启动Sp

CSDN技术头条

2018-02-13

3.8K0

你可能遇到了”假“的数据科学家

机器学习神经网络人工智能深度学习 spark

近十年来，“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为是“数据科学家”，争论不休，你很有可能遇到了”假“的数据科学家。我们最后达成一致：只要取得数据科学相关学位、认证的研究数据的，不论是在大学还是从在线课程，我们都称之为数据科学家。统计数据是枯燥单一的，是非自然的，只有各种各样的数据才使得世界丰富多彩。那么，如何去分析多样的数据呢？数据科学家便应需求而生。数据科学领域飞速发展，一大波数据专家正在袭来。在企业中，他们被称为“数据科学家”或“数据科学团队”，包括：普通员工：执行临时的分析或报

CSDN技术头条

2018-02-13

6470

Spark Streaming应用与实战全攻略

spark 爬虫 hbase

一、背景与架构改造 1.1 问题描述有一块业务主要是做爬虫抓取与数据输出，通过大数据这边提供的SOA服务入库到HBase,架构大致如下：架构改造之前以对于以上的架构存在一些问题，我们可以看见数据

CSDN技术头条

2018-02-13

1.2K0

Spark App自动化分析和故障诊断

spark 大数据

非常高兴有机会可以代表我们团队在“CCTC 2017——Spark技术峰会”上给大家分享我们在Spark平台化上所做的一些工作，下面是分享的一些笔录。苏宁大数据计算平台架构苏宁大数据平台的计算引

CSDN技术头条

2018-02-13

2.3K0

基于Spark的大规模机器学习在微博的应用

spark 机器学习 apache

众所周知，自2015年以来微博的业务发展迅猛。如果根据内容来划分，微博的业务有主信息（Feed）流、热门微博、微博推送（Push）、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下，由用户相互关注衍生的用户间关系，以及用户千人千面的个性化需求，要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容，也呈现出多样化、多媒体化的发展趋势。一直以来，微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CCTC 2017云计算大会Spa

CSDN技术头条

2018-02-13

1.4K0

Spark Streaming vs. Kafka Stream 哪个更适合你？

译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加，仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理，以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理想平台，而“复杂事件处理”（CEP）则利用了逐个事件处理和聚合等技术。对于实时数据处理功能，我们有很多选择可

CSDN技术头条

2018-02-13

2.9K0

从底层到应用，大数据工程师成长之路必备技能汇总

大数据 hadoop hive spark

概述：谨以此文献给对数据有热情，想长期从事此行业的年轻人，希望对你们有所启发，并快速调整思路和方向，让自己的职业生涯有更好的发展。根据数据应用的不同阶段，我将从数据底层到最后应用，来谈谈那些数据人的必备技能。 1、大数据平台目前很火，数据源头，各种炫酷新技术，搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~，前提是你要懂Java，很多平台都是用Java开发的。目前很多企业都把数据采集下来了，对于传统的业务数据，用传统的数据是完全够用的，可是对于用户行为和点击行为这些数据或者很

CSDN技术头条

2018-02-13

1.1K0

Apache Spark新方向：深度学习和流式数据处理支持

spark 深度学习

6月5～7日，Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了《E

CSDN技术头条

2018-02-12

7400

Spark Block存储管理分析

spark 大数据存储

Apache Spark中，对Block的查询、存储管理，是通过唯一的Block ID来进行区分的。所以，了解Block ID的生成规则，能够帮助我们了解Block查询、存储过程中是如何定位Block以及如何处理互斥存储/读取同一个Block的。可以想到，同一个Spark Application，以及多个运行的Application之间，对应的Block都具有唯一的ID，通过代码可以看到，BlockID包括：RDDBlockId、ShuffleBlockId、ShuffleDataBlockId、Shuff

CSDN技术头条

2018-02-12

1.4K0

Spark之RDD详解

RDD 概念与特性 RDD是Spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象，使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起，选用其中的几个/所有，可以应付各种不同的场景。解决了mr的缺陷：弹性分布式数据集Resilient Distributed Dataset 只读分区数据集，final修饰的一个分布式的数据集合，是spark中的核心，spark的操作都是围绕RDD展开的真正的运算是在各个计算节点当某个RDD操作丢失的时候，可

CSDN技术头条

2018-02-12

1.1K0

基于Alluxio系统的Spark DataFrame高效存储管理技术

spark 大数据

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。在未使用Alluxio之前，他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中，我们将介绍如何使用Alluxio帮助Spark变得更高效，具体地，我们将展示如何使用Alluxio高效存储Spark

CSDN技术头条

2018-02-12

9750

Apache Spark的承诺及所面临的挑战

spark 大数据

Spark并非完美无瑕，目前发展到了什么程度呢？我们来一起看看Spark的优劣之处吧。可以读一读Panopoly带来的The Evolution of the Data Warehouse，也就是目前这些系统所面临的主要挑战。如果你要寻求一种处理海量数据的解决方案，就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作，可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能，Spark不但非常适合用来对数据进行批处理，也非

CSDN技术头条

2018-02-12

8810

独家揭秘RISELab实验室

spark apache 开源编程算法大数据

UC Berkeley大学的AMPLab曾是大数据领域世界顶尖的实验室之一，六年来推出了多项主要的科技创新技术，比如Apache Spark、Apache Mesos和Alluxio，而如今它即将关闭，取而代之的是RISELab实验室。RISELab实验室会专注于提供SRDS，即安全实时的决策堆栈。 Spark技术商Databricks的共同创始人与执行总裁，UC Berkeley的计算机科学与电气工程教授，同时也是Spark的核心作者——Ion Stoica就曾在2016年比利时布鲁塞尔的Spark欧洲峰

CSDN技术头条

2018-02-12

2K0

提供基于 Spark 的云服务，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资

近日，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资，由New Enterprise Associates 领投，Andreessen Horowitz 参投，本次投资有望帮助公司完成在数据的组织、计算和交付方面的一次跨跃。 Databricks 成立于 2013 年，总部设在旧金山，属于 Spark 的商业化公司，由美国伯克利大学 AMP 实验室著名的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务，可用于数据集成，数

CSDN技术头条

2018-02-12

7490

Fregata: Spark上支持万亿维机器学习模型

spark 大数据

大规模机器学习工程上最大的挑战是模型的规模。在计算广告，推荐系统的场景下，运用Logistic Regression算法时常需要做特征交叉。原来两组，三组特征的数量可能并不是太大，但是通过交叉后可能会特征数会爆炸。例如，用户特征数1万，广告特征数1万，那么交叉后总特征数就是1亿，如果再与几十个广告位特征交叉，总特征数就会达到几十亿。有些情况下，特征交叉后，总数甚至能达到上千亿。特征数量的爆炸，也带来模型规模的爆炸，这给机器学习带来的挑战比庞大的训练数据量更大。通常认为，当模型的规模超过单节点的容量后，基

CSDN技术头条

2018-02-12

5880

MongoDB + Spark: 完整的大数据解决方案

mongodb spark 大数据

Spark介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来来做流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。快速：这个可能是Spark成功的最初原因之一，主要归功于其基于内存的运算方式。当数据的处理过程需要反复迭代时，Spark可以直接在内存中暂存数据，而无需像MapReduce一样需要把数据写回磁盘。官方的数

CSDN技术头条

2018-02-12

2.6K0

Hadoop、Hive、Spark 之间是什么关系？

hadoop hive spark 大数据

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千

CSDN技术头条

2018-02-12

15.9K4

冉起新秀：Apache六大尚未广为人知的大数据项目

apache 大数据数据处理开源 spark

世界各地无数的组织，他们使用的数据现在日益庞大而复杂，使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会（ASF）又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着，这些项目将能够得到积极的发展和社区的大力支持。大多数人都听过的Apache Spark，一个针对Streaming, SQL，机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目，NASA和SETI

CSDN技术头条

2018-02-12

7900

点击加载更多

社区活动

RAG七天入门训练营

鹅厂大牛手把手带你上手实战

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态