首页
学习
活动
专区
工具
TVP
发布

CSDN技术头条

专栏作者
1128
文章
1395569
阅读量
132
订阅数
风头正劲,这个技术只需几个月,平均薪资竟可达25k!
最近,谷歌爸爸又收购了一家公司。长期以来,谷歌致力于推动围绕 GoogleCloud 的企业业务,但在这方面一直被亚马逊和微软吊打,这次的收购正是为了弥补自身的短板。
CSDN技术头条
2018-10-08
3380
宜人贷YEP共享平台构建实践
宜人贷(NYSE: YRD)是中国领先的在线金融服务平台,由宜信公司2012年推出。宜人贷通过科技驱动金融创新,为中国优质城市白领人群提供高效、便捷、个性化的信用借款咨询服务;通过“宜人财富”为大众富裕阶层提供安全、专业的财富管理服务。2015年12月18日,宜人贷在美国纽约证券交易所成功上市,成为中国金融科技第一股。 而伴随着近年来“互联网+”发展的大潮,互联网+金融市场异常活跃,通过互联网进行金融服务的支付、在线保险、P2P网贷等互联网金融平台数量剧增,发展态势异常火爆,尤以宜人贷为代表的P2P网贷发展
CSDN技术头条
2018-02-13
1.1K0
HBase在滴滴出行的应用场景和最佳实践
背景 对接业务类型 HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时也对接了很多线上业务。在线业务对访问延迟敏感,并且访问趋向于随机,如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务,对一段时间内的数据进行处理并产出结果,对任务完成的时间要求不是非常敏感,并且处理逻辑复杂,如天级别报表、安全和用户行为分析、模型训练等。 多语言支持 HBase提供了多语言解决方案,并且由于滴滴各业务线RD所使用的开发语言各有偏好
CSDN技术头条
2018-02-13
1.8K0
从底层到应用,大数据工程师成长之路必备技能汇总
概述:谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。 根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。 1、大数据平台 目前很火,数据源头,各种炫酷新技术,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平台都是用Java开发的。 目前很多企业都把数据采集下来了,对于传统的业务数据,用传统的数据是完全够用的,可是对于用户行为和点击行为这些数据或者很
CSDN技术头条
2018-02-13
1.1K0
大数据Hadoop快速入门教程
1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效
CSDN技术头条
2018-02-12
6270
Kafka实战:从RDBMS到Hadoop,七步实现实时传输
本文是关于Flume成功应用Kafka的研究案例,深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。 对于那些想要把数据快速摄取到Hadoop中的企业来讲,Kafka是一个很好的选择。Kafka是什么?Kafka是一个分布式、可伸缩、可信赖的消息传递系统,利用发布-订阅模型来集成应用程序/数据流。同时,Kafka还是Hadoop技术堆栈中的关键组件,能够很好地支持实时数据分析或者货币化的物联网数据。 本文服务于技术人群。下面就图解Kafka是如何把数据流从RDBMS(关系数据库管理系统)导
CSDN技术头条
2018-02-12
8740
Hadoop、Hive、Spark 之间是什么关系?
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。 大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千
CSDN技术头条
2018-02-12
15.8K4
Hadoop旧mapreduce的map任务切分原理
前言 最近在工作过程中接触一些Hive数据仓库中的表,这些表实际是从关系型数据库通过Sqoop抽到Hive的。在开发过程中对map任务的划分进行性能调优,发现mapreduce中关于FileInputFormat的参数调整都不起作用,最后发现这些老任务都是用旧版的mapreduce开发的,于是顺便研究下旧版mapreduce的任务划分策略。有关新版mapreduce的任务划分策略,大家可以参考我之前的博文《Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInpu
CSDN技术头条
2018-02-12
9100
如何让Hadoop支持优先级且性能可预测
让运行Hadoop的公司产品都能够确保高优先级任务按时完成。 Apache Hadoop近十年的成长证明,用开源技术处理与访问海量数据并不是什么炒作。然而,Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成,也不能完全发挥集群的性能。 YARN(一种新的Hadoop资源管理器)能够实现任务抢占,为队列中的其它任务腾出调度空间。容量调度器与公平调度器可以通过静态配置杀死那些占用集群资源的任务,从而让高优先级任务进行调度。 当队列中堆积了等待资源的任务,这些工具就可以派上用场了。不
CSDN技术头条
2018-02-12
9960
实时流处理系统的用例
本文阐述了为什么比起Hadoop之类的知名技术,类似Apache Storm这样的系统更加有用。 让我们以经典的笔记本品牌实时情感分析(SENTIMENT ANALYSIS)为例,在进行观点分析时,
CSDN技术头条
2018-02-12
8070
运行于云端的Hadoop——数据即服务的论证
导语 就像Docker是容器的代名词一样,Hadoop [hædu:p]也是大数据的代名词,作为云计算所青睐的一种分布式架构,这只黄色的小象也和那只蓝色的鲸鱼一样被越来越多的人所熟知。Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,DougCutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。” Hadoop以及其它大数据应用框架,例如Spark,是围绕
CSDN技术头条
2018-02-12
1.6K0
大数据架构的未来
作者:Matt Kalan 原文:The Future of Big Data Architecture 译者:孙薇 本文讲述了大数据的相关问题,以及“大数据架构”得名的由来。 大数据的问题 或许所有读者都明白这一点:数据正在飞速增长。若是能够有效利用的话,我们能从这些数据中找到非常有价值的见解;传统技术有很多都是在40年前设计的,比如RDBMSs,不足以创造“大数据”炒作所宣称的商业价值。在大数据技术的使用上,常见的案例是“客户单一视图”;将关于客户所知道的一切内容放在一起,以便最大化服务提供与自身收入,
CSDN技术头条
2018-02-11
7510
对比Pig、Hive和SQL,浅看大数据工具之间的差异
【编者按】在笔者看来,语言和工具之争从来都没有太大的意义,所谓存在既有道理,如何在场景下做出最合适的选择才至关重要。本文,DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别,并为读者浅谈了一些选择标准。 以下为译文 有人说对于大数据分析来说Hadoop才是炙手可热的新技术,SQL虽然久经考验但已经有些过时了。这话说得不错,但有非常多的项目都用Hadoop作为数据存储,而以SQL构建前端查询,这说明Hadoop确实需要一种高级的查询语言。为了简化Hadoop的
CSDN技术头条
2018-02-11
3.2K0
【年末盘点】2015年科技巨头的十个开源产品,不只是.NET、Swift
科技巨头将内部产品发布到开源社区,这可是相当时髦的举动,现在他们带着免费的午餐姗姗而来。 开源软件正在崛起,虽然过程平淡甚至有几分隐晦。鉴于开源科技在各方面——从容器化到云端均有突出表现,越来越多的人了解到开源软件在企业计算中所占据并日益增长的重要地位。结果很可能是主要科技公司更加频繁地向开源社区发布最新的免费代码。下面是10个最值得注意的产品。 Spinnaker Netflix使用持续交付平台Spinnaker来完成跨越庞大基础架构的快速软件更新,本周稍早前它在GitHub上发布了该项目的源代码
CSDN技术头条
2018-02-11
6570
Apache Eagle——eBay开源分布式实时Hadoop数据安全方案
日前,eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案—— Apache Eagle,该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。 背景 随着大数据的发展,越来越多的成功企业或者组织开始采取数据驱动商业的运作模式。在eBay,我们拥有数万名工程师、分析师和数据科学家,他们每天访问分析数PB
CSDN技术头条
2018-02-11
1.4K0
基于Hadoop集群的大规模分布式深度学习
前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上。正如在2015 Hadoop 峰会上介绍的,我们
CSDN技术头条
2018-02-11
6230
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架
Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽然IT公司将会继续添加其他数据处理框架叠加在Hadoop集群顶部,One Platinum Initiativ是一个以Spark取代MapReduce作为默认数据处理引擎的基本案。”Cloudera的产品营销总监Matt Brandwein。 大多数IT组织认为MapReduce是一个相当晦涩难懂的编程工具。出于这个原因,许多人愿意采用任意数量的
CSDN技术头条
2018-02-09
6410
Apache Spark 不过时的六大理由
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 YARN(负责资源分配和管理)是大数据环境下一个适用的架构。 或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管MapReduce是一项非常了
CSDN技术头条
2018-02-09
5090
知识分享:详解Hadoop核心架构
  通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。   通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足,后续及时修改。 HDFS的体系架构   整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过
CSDN技术头条
2018-02-09
7650
揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统
Sponge是一个简单多层,兼容完全POSIX兼容的分布式NFS、Hadoop,支持对象存储、云存储、SDS、容器机制,集成Spark为计算引擎,基于内存计算技术的分布式系统,将大数据的存储、管理和计算有机融合,具有实时一致性。 使用对象存储、高性能存储、Hadoop、Spark、Storm……等技术来存储、处理和分析大数据很流行,然而海绵数据科技有限公司(以下简称“海绵数据”)说,这些技术各自为政,存在性能、管理、开发、成本等多方面的问题。 5月20日,海绵数据宣布推出其第二代大数据操作系统产品Spong
CSDN技术头条
2018-02-09
9620
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档