腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

挖掘大数据

专栏作者

113

文章

192973

阅读量

71

订阅数

Spark学习笔记——共享变量

通常，当传递给Spark操作（例如map or reduce）的函数在远程集群节点上执行时，它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器，并且远程机器上的变量的更新都不会被传播回到驱动程序。在任务之间支持一般的，读写共享变量将是低效的。然而，Spark 为两种常用的使用模式提供了两种有限类型的共享变量：广播变量和累加器。

挖掘大数据

2018-01-19

1.1K0

大数据初学者该如何快速入门？

大数据数据处理 spark 数据库云数据库 SQL Server

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢？用不用参加大数据培训呢？如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。

挖掘大数据

2018-01-17

4.5K0

收藏！6道常见hadoop面试题及答案解析

你准备好面试了吗？呀，需要Hadoop面试题知识！不要慌！这里有一些可能会问到的问题以及你应该给出的答案。

挖掘大数据

2018-01-16

2.5K0

浅析Hadoop大数据分析与应用

大数据 spark hadoop apache

为了满足日益增长的业务变化，京东的京麦团队在京东大数据平台的基础上，采用了Hadoop等热门的开源大数据计算引擎，打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。

挖掘大数据

2018-01-16

1.1K0

如何高效地合并Spark社区PR到自己维护的分支

最近刚刚忙完Spark 2.2.0的性能测试及Bug修复，社区又要发布2.1.2了，国庆期间刚好有空，过了一遍2.1.2的相关JIRA，发现有不少重要修复2.2.0也能用上，接下来需要将有用的PR合到我们内部维护的2.2.0分支上了。

挖掘大数据

2018-01-16

2.2K0

详解10个最热门的大数据技术

spark 大数据 mongodb

随着大数据分析市场快速渗透到各行各业，哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数，这里给出最热门的十个大数据技术。 1、预测分析预测分析是一种统计或数据挖掘解决方

挖掘大数据

2018-01-09

7950

Hadoop的正确打开方式

数据处理 spark hadoop

关于 Hadoop 所谓的消亡，以及它跌落神坛的报道数不胜数。有很多人放马后炮说，Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型，临时的工作来说很慢”、“ Hadoop 很难”、“

挖掘大数据

2018-01-09

6910

Apache Spark 黑名单机制介绍

在使用 Apache Spark的时候，作业会以分布式的方式在不同的节点上运行；特别是当集群的规模很大时，集群的节点出现各种问题是很常见的，比如某个磁盘出现问题等。我们都知道 Apache Spark是一个高性能、容错的分布式计算框架，一旦它知道某个计算所在的机器出现问题（比如磁盘故障），它会依据之前生成的 lineage 重新调度这个 Task。

挖掘大数据

2018-01-09

3.4K0

Spark整合Mongodb（附实例代码）

环境准备 mongodb下载解压安装启动mongodb服务 $MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logp

挖掘大数据

2017-12-27

1.2K0

大数据分析平台 Apache Spark详解

spark apache 数据库

本文介绍了Apache Spark的四个主要应用场景，包括大数据处理、机器学习、图计算和流处理。Spark可以处理批量数据和流数据，并且提供了简单易用的API。同时，Spark还支持多种编程语言，包括Python、Java和Scala等，使得开发人员可以更加便捷地开发复杂的数据处理应用。

挖掘大数据

2017-12-27

2.8K0

未来数据分析市场发展的五大趋势

大数据数据处理 spark

本文探讨了未来数据分析市场的发展趋势，包括数据可视化、数据挖掘、大数据、数据仓库、数据湖、机器学习、ETL、BI、数据隐私和合规等方面的技术进展和应用。作者认为，未来数据分析市场将更加注重数据隐私和合规性，同时，数据仓库和ETL技术也将变得更加成熟和灵活，而机器学习则将专注于特定场景的应用。

挖掘大数据

2017-12-22

1.4K0

Spark和RDD究竟该如何理解？

spark 大数据

本文主要介绍了Spark和RDD的基本概念、特点以及它们之间的关系。Spark是一种基于内存的分布式计算框架，而RDD则是Spark中的一种数据结构。Spark可以高效地处理迭代计算和交互式计算，而RDD则提供了容错性和自动从节点失败中恢复的功能。它们相辅相成，共同实现高效的大数据处理任务。

挖掘大数据

2017-12-22

9780

大数据小课堂：七种常见的Hadoop和Spark项目案例

spark hadoop 大数据

本文介绍了七种常见的Hadoop和Spark项目案例，包括数据整合、专业分析、Hadoop服务、流分析、复杂事件处理、ETL流和更换或增加SAS。这些项目涵盖了大数据处理的各个方面，如数据整合、专业分析和流处理等。

挖掘大数据

2017-12-22

8030

Standalone模式安装Spark

spark 大数据分布式

本文介绍了如何安装和配置Apache Spark，以在完全分布式集群上运行。首先，介绍了如何将Spark解压并上传到指定目录，然后修改环境变量并配置Spark-env.sh。最后，介绍了如何配置slaves文件并启动和验证Spark。

挖掘大数据

2017-12-21

5200

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态