首页
学习
活动
专区
工具
TVP
发布

CSDN技术头条

专栏作者
1128
文章
1404473
阅读量
132
订阅数
快速入门深度学习,从 Deeplearning4j 开始
随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟,越来越多的 AI 产品得到了真正的落地。
CSDN技术头条
2019-11-19
1.1K0
Java 工程师快速入门深度学习,从 Deeplearning4j 开始
随着机器学习、深度学习为主要代表的人工智能技术的逐渐成熟,越来越多的 AI 产品得到了真正的落地。
CSDN技术头条
2019-11-19
5390
Livy:基于Apache Spark的REST服务
Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。 背景 Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处理和分析应用,它提供了两种方式来处理数据:一是交互式处理,比如用户使用spark-shell或是pyspark脚本启动Sp
CSDN技术头条
2018-02-13
3.8K0
你可能遇到了”假“的数据科学家
近十年来,“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为是“数据科学家”,争论不休,你很有可能遇到了”假“的数据科学家。 我们最后达成一致:只要取得数据科学相关学位、认证的研究数据的,不论是在大学还是从在线课程,我们都称之为数据科学家。统计数据是枯燥单一的,是非自然的,只有各种各样的数据才使得世界丰富多彩。那么,如何去分析多样的数据呢?数据科学家便应需求而生。 数据科学领域飞速发展,一大波数据专家正在袭来。在企业中,他们被称为“数据科学家”或“数据科学团队”,包括: 普通员工:执行临时的分析或报
CSDN技术头条
2018-02-13
6470
Spark Streaming应用与实战全攻略
一、背景与架构改造 1.1 问题描述 有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下: 架构改造之前 以对于以上的架构存在一些问题,我们可以看见数据
CSDN技术头条
2018-02-13
1.2K0
Spark App自动化分析和故障诊断
非常高兴有机会可以代表我们团队在“CCTC 2017——Spark技术峰会”上给大家分享我们在Spark平台化上所做的一些工作,下面是分享的一些笔录。 苏宁大数据计算平台架构 苏宁大数据平台的计算引
CSDN技术头条
2018-02-13
2.3K0
基于Spark的大规模机器学习在微博的应用
众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下,由用户相互关注衍生的用户间关系,以及用户千人千面的个性化需求,要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容,也呈现出多样化、多媒体化的发展趋势。 一直以来,微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CCTC 2017云计算大会Spa
CSDN技术头条
2018-02-13
1.4K0
Spark Streaming vs. Kafka Stream 哪个更适合你?
译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。 流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理,以便企业能够实时地对不断变化的业务环境做出反应。 流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理想平台,而“复杂事件处理”(CEP)则利用了逐个事件处理和聚合等技术。 对于实时数据处理功能,我们有很多选择可
CSDN技术头条
2018-02-13
2.9K0
从底层到应用,大数据工程师成长之路必备技能汇总
概述:谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。 根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。 1、大数据平台 目前很火,数据源头,各种炫酷新技术,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平台都是用Java开发的。 目前很多企业都把数据采集下来了,对于传统的业务数据,用传统的数据是完全够用的,可是对于用户行为和点击行为这些数据或者很
CSDN技术头条
2018-02-13
1.1K0
Apache Spark新方向:深度学习和流式数据处理支持
6月5~7日,Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust 和 Tim Hunter 分享了 《E
CSDN技术头条
2018-02-12
7400
Spark Block存储管理分析
Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中是如何定位Block以及如何处理互斥存储/读取同一个Block的。可以想到,同一个Spark Application,以及多个运行的Application之间,对应的Block都具有唯一的ID,通过代码可以看到,BlockID包括:RDDBlockId、ShuffleBlockId、ShuffleDataBlockId、Shuff
CSDN技术头条
2018-02-12
1.4K0
Spark之RDD详解
RDD 概念与特性 RDD是Spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象,使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起,选用其中的几个/所有,可以应付各种不同的场景。解决了mr的缺陷: 弹性分布式数据集Resilient Distributed Dataset 只读分区数据集,final修饰的 一个分布式的数据集合,是spark中的核心,spark的操作都是围绕RDD展开的 真正的运算是在各个计算节点 当某个RDD操作丢失的时候,可
CSDN技术头条
2018-02-12
1.1K0
基于Alluxio系统的Spark DataFrame高效存储管理技术
介绍 越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平均性能提升了15倍,峰值甚至达到300倍左右。在未使用Alluxio之前,他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中,我们将介绍如何使用Alluxio帮助Spark变得更高效,具体地,我们将展示如何使用Alluxio高效存储Spark
CSDN技术头条
2018-02-12
9750
Apache Spark的承诺及所面临的挑战
Spark并非完美无瑕,目前发展到了什么程度呢?我们来一起看看Spark的优劣之处吧。 可以读一读Panopoly带来的The Evolution of the Data Warehouse,也就是目前这些系统所面临的主要挑战。 如果你要寻求一种处理海量数据的解决方案,就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作,可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能,Spark不但非常适合用来对数据进行批处理,也非
CSDN技术头条
2018-02-12
8810
独家揭秘RISELab实验室
UC Berkeley大学的AMPLab曾是大数据领域世界顶尖的实验室之一,六年来推出了多项主要的科技创新技术,比如Apache Spark、Apache Mesos和Alluxio,而如今它即将关闭,取而代之的是RISELab实验室。RISELab实验室会专注于提供SRDS,即安全实时的决策堆栈。 Spark技术商Databricks的共同创始人与执行总裁,UC Berkeley的计算机科学与电气工程教授,同时也是Spark的核心作者——Ion Stoica就曾在2016年比利时布鲁塞尔的Spark欧洲峰
CSDN技术头条
2018-02-12
2K0
提供基于 Spark 的云服务,大数据软件公司 Databricks 获得 6000 万美元 C 轮融资
近日,大数据软件公司 Databricks 获得 6000 万美元 C 轮融资,由New Enterprise Associates 领投,Andreessen Horowitz 参投,本次投资有望帮助公司完成在数据的组织、计算和交付方面的一次跨跃。 Databricks 成立于 2013 年,总部设在旧金山,属于 Spark 的商业化公司,由美国伯克利大学 AMP 实验室著名的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务,可用于数据集成,数
CSDN技术头条
2018-02-12
7490
Fregata: Spark上支持万亿维机器学习模型
大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,但是通过交叉后可能会特征数会爆炸。例如,用户特征数1万,广告特征数1万,那么交叉后总特征数就是1亿,如果再与几十个广告位特征交叉,总特征数就会达到几十亿。有些情况下,特征交叉后,总数甚至能达到上千亿。特征数量的爆炸,也带来模型规模的爆炸,这给机器学习带来的挑战比庞大的训练数据量更大。 通常认为,当模型的规模超过单节点的容量后,基
CSDN技术头条
2018-02-12
5880
MongoDB + Spark: 完整的大数据解决方案
Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来来做流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式。当数据的处理过程需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像MapReduce一样需要把数据写回磁盘。官方的数
CSDN技术头条
2018-02-12
2.6K0
Hadoop、Hive、Spark 之间是什么关系?
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。 大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千
CSDN技术头条
2018-02-12
15.9K4
冉起新秀:Apache六大尚未广为人知的大数据项目
世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。 大多数人都听过的Apache Spark,一个针对Streaming, SQL,机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目,NASA和SETI
CSDN技术头条
2018-02-12
7900
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档