首页
学习
活动
专区
工具
TVP
发布

挖掘大数据

专栏作者
113
文章
192973
阅读量
71
订阅数
Spark学习笔记——共享变量
通常,当传递给Spark操作(例如map or reduce)的函数在远程集群节点上执行时,它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器,并且远程机器上的变量的更新都不会被传播回到驱动程序。在任务之间支持一般的,读写共享变量将是低效的。然而,Spark 为两种常用的使用模式提供了两种有限类型的共享变量:广播变量和累加器。
挖掘大数据
2018-01-19
1.1K0
大数据初学者该如何快速入门?
很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么大讲台老师就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。
挖掘大数据
2018-01-17
4.5K0
收藏!6道常见hadoop面试题及答案解析
你准备好面试了吗?呀,需要Hadoop面试题知识!不要慌!这里有一些可能会问到的问题以及你应该给出的答案。
挖掘大数据
2018-01-16
2.5K0
浅析Hadoop大数据分析与应用
为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。
挖掘大数据
2018-01-16
1.1K0
如何高效地合并Spark社区PR到自己维护的分支
最近刚刚忙完Spark 2.2.0的性能测试及Bug修复,社区又要发布2.1.2了,国庆期间刚好有空,过了一遍2.1.2的相关JIRA,发现有不少重要修复2.2.0也能用上,接下来需要将有用的PR合到我们内部维护的2.2.0分支上了。
挖掘大数据
2018-01-16
2.2K0
详解10个最热门的大数据技术
随着大数据分析市场快速渗透到各行各业,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里给出最热门的十个大数据技术。 1、预测分析 预测分析是一种统计或数据挖掘解决方
挖掘大数据
2018-01-09
7950
Hadoop的正确打开方式
关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作来说很慢”、“ Hadoop 很难”、“
挖掘大数据
2018-01-09
6910
Apache Spark 黑名单机制介绍
在使用 Apache Spark的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比如某个磁盘出现问题等。我们都知道 Apache Spark是一个高性能、容错的分布式计算框架,一旦它知道某个计算所在的机器出现问题(比如磁盘故障),它会依据之前生成的 lineage 重新调度这个 Task。
挖掘大数据
2018-01-09
3.4K0
Spark整合Mongodb(附实例代码)
环境准备 mongodb下载 解压安装 启动mongodb服务 $MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logp
挖掘大数据
2017-12-27
1.2K0
大数据分析平台 Apache Spark详解
本文介绍了Apache Spark的四个主要应用场景,包括大数据处理、机器学习、图计算和流处理。Spark可以处理批量数据和流数据,并且提供了简单易用的API。同时,Spark还支持多种编程语言,包括Python、Java和Scala等,使得开发人员可以更加便捷地开发复杂的数据处理应用。
挖掘大数据
2017-12-27
2.8K0
未来数据分析市场发展的五大趋势
本文探讨了未来数据分析市场的发展趋势,包括数据可视化、数据挖掘、大数据、数据仓库、数据湖、机器学习、ETL、BI、数据隐私和合规等方面的技术进展和应用。作者认为,未来数据分析市场将更加注重数据隐私和合规性,同时,数据仓库和ETL技术也将变得更加成熟和灵活,而机器学习则将专注于特定场景的应用。
挖掘大数据
2017-12-22
1.4K0
Spark和RDD究竟该如何理解?
本文主要介绍了Spark和RDD的基本概念、特点以及它们之间的关系。Spark是一种基于内存的分布式计算框架,而RDD则是Spark中的一种数据结构。Spark可以高效地处理迭代计算和交互式计算,而RDD则提供了容错性和自动从节点失败中恢复的功能。它们相辅相成,共同实现高效的大数据处理任务。
挖掘大数据
2017-12-22
9780
大数据小课堂:七种常见的Hadoop和Spark项目案例
本文介绍了七种常见的Hadoop和Spark项目案例,包括数据整合、专业分析、Hadoop服务、流分析、复杂事件处理、ETL流和更换或增加SAS。这些项目涵盖了大数据处理的各个方面,如数据整合、专业分析和流处理等。
挖掘大数据
2017-12-22
8030
Standalone模式安装Spark
本文介绍了如何安装和配置Apache Spark,以在完全分布式集群上运行。首先,介绍了如何将Spark解压并上传到指定目录,然后修改环境变量并配置Spark-env.sh。最后,介绍了如何配置slaves文件并启动和验证Spark。
挖掘大数据
2017-12-21
5200
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档