首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2427606
阅读量
187
订阅数
什么是 Apache Spark?大数据分析平台如是说
自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来,它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署,它为 Java、Scala、Python,和 R 编程语言提供了本地绑定,并且支持 SQL、流数据、机器学习,和图处理。你将会发现它被银行、电信公司、游戏公司、政府,和所有如 Apple、Facebook、IBM,和 Microsoft 等主要的科技巨头公司使用。 非常好,Spark 可以运行在一个只需要在你集群中的
小莹莹
2018-04-24
1.3K0
大型网站架构系列:电商网站架构案例
大型网站架构是一个系列文档,欢迎大家关注。本次分享主题:电商网站架构案例。从电商网站的需求,到单机架构,逐步演变为常用的,可供参考的分布式架构的原型。除具备功能需求外,还具备一定的高性能,高可用,可伸缩,可扩展等非功能质量需求(架构目标)。 根据实际需要,进行改造,扩展,支持千万PV,是没问题的。 本次分享大纲 电商案例的原因 电商网站需求 网站初级架构 系统容量估算 网站架构分析 网站架构优化 架构总结 电商网站案例,一共有三篇本篇主要说明网站的需求,网站初始架构,系统容量估算方法。 一、电商案例的原
小莹莹
2018-04-23
5.2K0
浅谈开源大数据平台的演变
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。 Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗;小部分离线存储和计算需求,在对性能要求不高的情况下,也可以使用Hadoop实现。因此
小莹莹
2018-04-23
1.1K0
分布式数据库数据一致性原理说明与实现
分布式数据库的数据一致性管理是其最重要的内核技术之一,也是保证分布式数据库满足数据库最基本的ACID特性中的 “一致性”(Consistency)的保障。在分布式技术发展下,数据一致性的解决方法和技术也在不断的演进,本文就以作者实际研发的分布式数据库作为案例,介绍分布式数据库数据一致性的原理以及实际实现。 1 数据一致性 1.1 数据一致性是什么 大部份使用传统关系型数据库的DBA在看到“数据一致性”时,第一反应可能都是数据在跨表事务中的数据一致性场景。但是本文介绍的“数据一致性”,指的是“数据在多份副本
小莹莹
2018-04-23
8900
数据挖掘系列(5)使用mahout做海量数据关联规则挖掘
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。 安装mahout   骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经
小莹莹
2018-04-23
7520
【案例】深度解析大数据在公安领域的应用
近一两年,大数据开始在公安等行业领域得到普及应用,除了行业自身的特殊要求外,大数据也带动了相关行业的需求发展。未来,基于大数据的行业应用会变得更加深入,更多的相关厂商也会涉及其中,大数据在公安领域的商业模式架构逐渐清晰起来。 在安防的细分领域中,大数据在公安及智能交通探索应用得比较早,相关的解决方案和技术也比较成熟,在广西等地也已经有相关的项目落地,大数据应用系统已经上线运营,取得了预期的效果。 项目应用前景看好 以相关的案例来讲,在广西公安厅投入使用的大数据系统中,整个项目是以自治区的总数据为出发点,
小莹莹
2018-04-23
1.6K0
【学习】公司的大数据业务为什么都基于Hadoop方案
  一、可以帮助我们解决什么问题   现在不管是在国内外的大公司,对于大数据都是非常的渴望,会想尽所有的办法搜集一切的数据,由于现代信息的不对称从而导致不断的数据变化,大量的信息是可以通过数据分析获取
小莹莹
2018-04-23
5790
数据太大?你该了解Hadoop分布式文件系统
1、联网设备增加 数据量随之上升 大数据时代来了。当所有人都争吵着这件事情的时候,当所有企业都看好大数据的发展前景的时候,却都很少关注这些数据从哪儿来,我们有没有足够优秀的技术能力处理这些数据。   联网设备增加 数据量随之上升   网络的发展无疑为我们迎接大数据时代、智能计算时代铺好了路。根据研究公司的预测,全球联网设备正在增加,在部分国家,人均联网设备早已超过2台;如此大量的联网设备和不断提高的网络速度都在让社会的数据量快速增长,智慧城市、平安城市的实现也是以视频监控等视频数据为基础,成为大数据时
小莹莹
2018-04-23
7670
分布式深度学习算法产品及在蚂蚁金服中的应用(附33页PDF下载)
导读:8月3日-6日,世界公认的“必须参加”的数据盛典Strata + Hadoop World首次登陆中国。作为顶级的数据盛会,美国总统奥巴马曾亲自2015年加州的Strata + Hadoop World大会助阵送去贺词。会议议题关注于大数据、机器学习和数据分析以及它们社会带来的改变。数据科学家、分析师和来自各种规模的创新企业高管将在此汇聚一堂,分享数据案例研究、最佳实践、新的分析方法以及关键技能。 让我们来看看在北京的Strata + Hadoop World大会有什么亮点: 阿里云iDST褚崴
小莹莹
2018-04-23
7070
【报告】京东电商大数据实践
温馨提示:多图,建议在wifi环境下阅读 京东大数据平台从无到有,从集中式到分布式,从Oracle数据仓库到JDW2.0,在演变过程中一直在思考的两个问题:1、如何建设电商特有的复杂业务的数据仓库?2
小莹莹
2018-04-20
9110
【盘点】六个步骤助你最大化大数据的商业价值
上个月公布的一项调查结果显示,由Apache基金会所开发的分布式系统基础架构Hadoop可能即将面临着来自资金链方面的压力与挑战。具体而言,调查中的绝大多数受访者都表示目前没有对Hadoop的投资计划
小莹莹
2018-04-20
4880
IT界的圣经——《失控》核心摘要与50条语录
有人说,如果求职者说自己看完了凯文·凯利的《失控》,面试就可以愉快地结束了,可是十个和你推荐它的人,七个自己没看完,至多一个读完,还有两个可能只是买回来发一下朋友圈。这本书的确艰涩枯燥,要是都看得懂,那还不都互联网创业成功了?数君找来一篇核心观点摘录,纯干货,值得收藏! KK的《失控》《Outof Control: The New Biology ofMachines, Social Systems, and theEconomic World》写于上世纪90年代,而在中国被广泛认知则是在近几年互联网浪
小莹莹
2018-04-20
9000
【学习】深度解析LinkedIn大数据平台(一)
我在六年前的一个令人兴奋的时刻加入到LinkedIn公司。从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换。这是一件令人兴奋的事情:我们构建、部署,而且直到今天仍然在运行的分布式图形数据库、分布式搜索后端、Hadoop安装以及第一代和第二代键值数据存储。 从这一切里我们体会到的最有益的事情是我们构建的许多东西的核心里都包含一个简单的理念:日志。有时候也称作预先写入日志或者提交日志或者事务日志,日志几乎在计算机产生的时候就存在,同时它还是许多分布式数据系统和实时应用结
小莹莹
2018-04-19
7850
大数据的十大发展方向,中国成为大数据最重要的市场
大数据无疑是目前IT领域的最受关注的热词之一。几乎凡事都要挂上点大数据,否则就显得你OUT了。相信大多数人都能顺口说出大数据的四个特点:容量大,多样化,速度快以及高价值。但随着人们对于大数据的逐渐了解
小莹莹
2018-04-18
8050
Hadoop并非完美:8个代替 HDFS的绝佳方案
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。 Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比 较适用,但是对于某些Hadoop用户来说,他们对于性能、可用
小莹莹
2018-04-18
1.8K0
Hydra与Hadoop之争谁将胜利?
Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像hadoop一样,只是还没有Hadoop那样的知名度和声势。Hydra的创造者称,该“多头”平台非常擅长处理一些大的数据任务——对非常大的数据集进行实时处理,这样的任务恐怕会让那只大象(Hadoop)很头疼。 Hadoop仍然是一个储存大量数据的优秀平台,但很多公司面临着另一个问题,我们将数据存储到Hadoop之后如何去分析数据,无论是Hive还是Pig都需要方便地访问Hadoop中
小莹莹
2018-04-18
1K0
干货|区块链入门教程:一文让你看懂区块链!
区块链(blockchain)是眼下的大热门,新闻媒体大量报道,宣称它将创造未来。可是,简单易懂的入门文章却很少。区块链到底是什么,有何特别之处,很少有解释。 下面,我就来尝试,写一篇最好懂的区块链教
小莹莹
2018-04-18
1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档