使用docker中的scala从mongodb读取数据到spark。得到0条记录，为什么？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

Spark教程（一）为什么要学spark

Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。 Spark让开发者可以快速的用Java、Scala或Python编写程序。...亲身体会经过这两周的折腾，总算是在本地环境下完成了第一个spark项目，完成十万级文本分词和去重，速度还是挺快的，从读取数据、处理数据、再到保存数据，大概花了十分钟左右。...这里操作的数据库都是MongoDB，因为爬虫爬取的数据都是直接保存到Mongo。之后再增加数据量，达到四千多万，读取数据花了8分钟，下图是正在处理和保存数据的Spark UI ?...以前处理数据会使用pandas，数据会保存在内存中，数据量过大就会崩了，这也是为什么要使用分布式计算的原因。没有做过横向对比，暂时还不知道有多大差别。...刚开始使用的语言还是Python，目标是学Scala，看了些基础语法，和Python挺类似的，以后多写写，维持这个项目，记录各种坑。 ok，BB了这么多，下一篇就要开始真正的代码实战了。 ?

1.5K5 0

在Docker中快速使用各个版本（从10g到23c）的Oracle数据库

镜像地址为了测试需要，麦老师制作了各个版本的Oracle数据库环境，下载地址如下： # oracle nohup docker pull registry.cn-hangzhou.aliyuncs.com...oracle19clhr_asm_db_12.2.0.3:2.0 init # 对于ASM，① ASM磁盘脚本：/etc/initASMDISK.sh，请确保脚本/etc/initASMDISK.sh中的内容都可以正常执行...之前也详细说明过一些镜像的使用方法，例如：11.2.0. 23c： https://www.xmmup.com/zaidockerzhongkuaisutiyanoracle-23cmianfeikaifazheban.html...容器中一步一步安装配置Oracle19c的ASM+DB环境【DB宝3】在Docker中使用rpm包的方式安装Oracle 19c 【DB宝4】只需2步即可拥有Oracle19c的ASM+DB环境 18c...中只需2步即可拥有Oracle 11g企业版环境（11.2.0.3）【DB宝14】在Docker中只需2步即可拥有Oracle 11g企业版环境（11.2.0.4） 12.2.0.1： https:/

1.4K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

MongoDB + Spark: 完整的大数据解决方案

当数据的处理过程需要反复迭代时，Spark可以直接在内存中暂存数据，而无需像MapReduce一样需要把数据写回磁盘。官方的数据表明：它可以比传统的MapReduce快上100倍。...好的我们了解了MongoDB为什么可以替换HDFS并且为什么有这个必要来做这个事情，下面我们就来看看Spark和MongoDB怎么玩！...这个时候你可以直接在HDFS上面架Spark来跑，Spark从HDFS取来原始数据进行计算，而MongoDB在这个场景下是用来保存处理结果。为什么要这么麻烦？...没有下推支持的话，每次操作很可能需要从MongoDB读取全量的数据，性能体验将会很糟糕。...任务递交到master，然后预先加载所需参考数据，broadcast就是把这些在内存里的数据复制到每一个Spark计算节点的JVM，然后所有计算节点多线程并发执行，从Mongodb里取出需要计算的仓位，

2.7K9 0

Scala学习之相同的函数名

最近在慢慢的开始用Scala写Spark，刚开始也是在菜鸟教程上简单过了一遍Scala，现在还记得一些基本语法，还有各种奇怪的语法糖。想要更快的学习这门语言，还是需要自己多谢谢。...举一个简单的栗子，从MongoDB读取数据时使用的配置所定义的两个函数 def readConfig(context: SparkContext, database: String, collection...这两个函数的功能一样，但是接受的参数不一样，所以这才需要去定义两个函数。（试想一下，在Python中如何去实现）可能你不懂Scala，让我简单跟你讲一下。...回到上面的栗子，一个类型是SparkContext，一个是SparkSession，这是Spark的数据类型；然后我们可以看到在函数末尾是冒号加ReadConfig，这里说的返回的数据类型是ReadConfig...，也就是从MongoDB读取数据时使用的配置类型。

6963 0

hadoop生态圈各个组件简介

其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。...map task：解析每条数据记录，传递给用户编写的map（）并执行，将输出结果写入到本地磁盘（如果为map—only作业，则直接写入HDFS）。...reduce task：从map 它深刻地执行结果中，远程读取输入数据，对数据进行排序，将数据分组传递给用户编写的reduce函数执行。...公司一般将所有的这些框架部署到一个公共的集群中，让它们共享集群的资源，并对资源进行统一使用，这样便诞生了资源统一管理与调度平台，典型的代表是mesos和yarn。...spark采用Scala语言实现，使用Scala作为应用框架。 spark采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。

1.1K1 0

盘点大数据生态圈，那些繁花似锦的开源项目

而在这个需求的刺激下，在过去数年，大数据开源生态圈得到了长足的发展——在数据的整个生命周期中，从收集到处理，一直到数据可视化和储存，各种开源技术框架林立。...而基于当下内存计算框架存在的普遍挑战，内存文件系统Tachyon得到了显著地关注，并在大量场景中得以部署，就拿下文提到的Spark来说：可以用作不同计算框架的数据共享，以避免磁盘IO；用以缓存数据，从而避免了...Spark出自伯克利AMPLab之手，基于Scala实现，从开源至今已吸引了越来越多企业的落地使用，仅国内比较知名的大规模部署就有百度、阿里、腾讯等。...Presto来自Facebook，类似于Impala的一个即席查询工具，在该公司内部得到广泛使用，而国内也在一些知名公司得到部署，比如美团。...同时，开源技术已经占领了数据从收集到可视化和存储的整个流程，比如：用于数据收集的Flume(NG)和Sqoop，分布式消息队列技术Kafka、RabbitMQ，用于数据可视化的HighCharts、D3

90811 0

一文了解 NebulaGraph 上的 Spark 项目

而且，我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式，后边也会一并贡献到文档里。...TL;DR Nebula Spark Connector 是一个 Spark Lib，它能让 Spark 应用程序能够以 dataframe 的形式从 NebulaGraph 中读取和写入图数据。.../ 代码例子：example NebulaGraph Spark Reader 为了从 NebulaGraph 中读取数据，比如读 vertex，Nebula Spark Connector 将扫描所有带有给定...Lib，也是一个可以直接提交执行的 Spark 应用，它被用来从多个数据源读取数据写入 NebulaGraph 或者输出 Nebula Graph SST 文件。...再看看一些细节这个例子里，我们实际上是用 Exchange 从 CSV 文件这一其中支持的数据源中读取数据写入 NebulaGraph 集群的。

7893 0

在Docker中快速使用Oracle的各个版本（从10g到21c）的数据库

为了测试需要，麦老师制作了各个版本的Oracle数据库环境，下载地址如下： # oracle nohup docker pull registry.cn-hangzhou.aliyuncs.com/lhrbest...1521 -p 211:22 \ --privileged=true \ lhrbest/oracle_10g_ee_lhr_10.2.0.1:2.0 init 之前也详细说明过一些镜像的使用方法...，例如：在Docker中只需2步即可拥有Oracle 21c环境【DB宝10】在Docker中只需2步即可拥有Oracle18c环境【DB宝11】在Docker中只需2步即可拥有Oracle...11g企业版环境（11.2.0.3）【DB宝12】在Docker中只需2步即可拥有Oracle 12cR2(12.2.0.1)企业版环境【DB宝13】在Docker中只需2步即可拥有Oracle...的ASM+DB环境【DB宝3】在Docker中使用rpm包的方式安装Oracle 19c DB宝4 本文结束。

1.8K5 0

PySpark与MongoDB、MySQL进行数据交互

代码2.1 MongoDB下面是一个简单的PySpark脚本，用于从MongoDB中读取数据：#!..._2.11:2.4.4") \ .enableHiveSupport() \ .getOrCreate() # 读取mongodb中的数据 df...最后使用spark.read.format().load()方法从MongoDB中读取数据，并将其存储在DataFrame中。2.2 MySQL#!...", "/path/to/mysql-connector-java-x.x.xx.jar") \ .getOrCreate() # 读取MySQL中的数据 df = spark.read...注意，最后的2.11是Scala版本，通常不需要更改；2.4.4是Spark版本，需要根据实际使用的Spark版本进行修改。

6453 0

大数据技术之_28_电商推荐系统项目_01

中；离线推荐服务从 MongoDB 中加载数据，通过 ALS 算法分别将【用户推荐结果矩阵】、【影片相似度矩阵】回写到 MongoDB 中。...【实时推荐部分】 2、Flume 从综合业务服务的运行日志中读取日志更新，并将更新的日志实时推送到 Kafka 中；Kafka 在收到这些日志之后，通过 kafkaStream 程序对获取的日志信息进行过滤处理...5、商品评分部分，获取用户通过 UI 给出的评分动作，后台服务进行数据库记录后，一方面将数据推动到 Redis 群中，另一方面，通过预设的日志框架输出到 Tomcat 中的日志中。 ...将数据文件 products.csv，ratings.csv 复制到资源文件目录 src/main/resources 下，我们将从这里读取数据并加载到 mongodb 中。...MongoDB 3.3.1 启动 MongoDB 数据库（略） 3.3.2 数据加载程序主体实现我们会为原始数据定义几个样例类，通过 SparkContext 的 textFile 方法从文件中读取数据

3K3 0

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

6、电影评分部分，获取用户通过 UI 给出的评分动作，后台服务进行数据库记录后，一方面将数据推动到 Redis 群中，另一方面，通过预设的日志框架输出到 Tomcat 中的日志中。 ...将数据文件 movies.csv，ratings.csv，tags.csv 复制到资源文件目录 src/main/resources 下，我们将从这里读取数据并加载到 mongodb 和 elastic... 我们会为原始数据定义几个样例类，通过 SparkContext 的 textFile 方法从文件中读取数据，并转换成 DataFrame，再利用 Spark SQL 提供的 write 方法进行数据的分布式插入...实现思路：通过 Spark SQL 读取评分数据集，统计所有评分中评分个数最多的电影，然后按照从大到小排序，将最终结果写入 MongoDB 的 RateMoreMovies【电影评分个数统计表】数据集中...，所以每个电影 mid 的最相似的 K 个电影很容易获取：从 MongoDB 中读取 MovieRecs 数据，从 mid 在 simHash 对应的子哈希表中获取相似度前 K 大的那些电影。

5.1K5 1

大数据技术之_28_电商推荐系统项目_02

实现思路：通过 Spark SQL 读取评分数据集，统计所有评分中评分个数最多的商品，然后按照从大到小排序，将最终结果写入 MongoDB 的 RateMoreProducts 数据集中。 ...实现思路：通过 Spark SQL 读取评分数据集，通过 UDF 函数将评分的数据时间修改为月，然后统计每月商品的评分数。...统计完成之后将数据写入到 MongoDB 的 RateMoreRecentlyProducts 数据集中。 ...实现思路：通过 Spark SQL 读取保存在 MongDB 中的 Rating 数据集，通过执行以下 SQL 语句实现对于商品的平均分统计。...已经预先将商品的相似度矩阵进行了计算，所以每个商品 productId 的最相似的 K 个商品很容易获取：从 MongoDB 中读取 ProductRecs 数据，从 productId 在 candidateProducts

4.5K2 1

Spark与mongodb整合完整版本

import com.mongodb.spark._ 2，链接到mongodb 当RDD需要读取或者写入数据到mongodb的时候，会自动创建链接。...3，写入数据到mongodb 将RDD数据写入到mongodb的时候，数据必须转化为BSON document。...读取数据分析 A),MongoSpark.load() 该方法主要是从mongodb里面捞取数据做RDD，。...中的MongoDB读取通过从数据库中抽样文档来推测schema信息的。...对于Spark读取外部数据封装RDD，实际上最终要的点就是计算分区。因为这决定者你任务的并发度和处理速度，完全理解数据，掌握数据在Spark应用中的流动过程，对做一个少bug的应用大有裨益。

9.2K10 0

SparkSQL极简入门

为什么sparkSQL的性能会得到怎么大的提升呢？...另外，使用这种方式，每个数据记录产生一个JVM对象，如果是大小为200GB的数据记录，堆栈将产生1.6亿个对象，这么多的对象，对于GC来说，可能要消耗几分钟的时间来处理（JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。 1．列存储什么是列存储？...4）从数据的压缩以及更性能的读取来对比 ? ?...如果读取的数据列属于相同的列族，列式数据库可以从相同的地方一次性读取多个数据列的值，避免了多个数据列的合并。列族是一种行列混合存储模式，这种模式能够同时满足OLTP和OLAP的查询需求。

3.9K1 0

盘点大数据生态圈，那些繁花似锦的开源项目

7525 0

原荐 SparkSQL简介及入门

2）在应用程序中可以混合使用不同来源的数据，如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。 ...3）内嵌了查询优化框架，在把SQL解析成逻辑执行计划之后，最后变成RDD的计算。二、列存储相关为什么sparkSQL的性能会得到怎么大的提升呢？ ...另外，使用这种方式，每个数据记录产生一个JVM对象，如果是大小为200GB的数据记录，堆栈将产生1.6亿个对象，这么多的对象，对于GC来说，可能要消耗几分钟的时间来处理（JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。 1．列存储什么是列存储？ ...4）从数据的压缩以及更性能的读取来对比 ? ?

2.5K6 0

开发大数据基础教程(前端开发入门)

1) 什么是solr 2) 为什么工程中要使用solr 3) Solr的原理 4) 如何在tomcat中运行solr 5) 如何利用solr进行索引与搜索 6) solr的各种查询 7) solr的Filter...,codis实战 16) redis3.x集群安装配置 Kafka课程Kafka是当下流行的队列，可以说是从数据采集到大数据计算承上启下的重要环节，大家在此部分将会详细学习它的架构，kafka在大家大数据的项目中几乎都会涉及到...13) 数据库连接，以及pip安装模块 14) Mongodb基础入门 15) 讲解如何连接mongodb 16) Python的机器学习案例 Scala课程在此部分内，将更注重scala的各种语言规则与简单直接的应用...的特质 10) scala的操作符 11) scala的高阶函数 12) scala的集合 13) scala数据库连接 Spark 大数据处理本部分内容全面涵盖了Spark生态系统的概述及其编程模型，...Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。

1.3K1 0

技术分享 | Spark RDD详解

（3）RDD的容错机制实现分布式数据集容错方法有两种：数据检查点和记录更新RDD采用记录更新的方式：记录所有更新点的成本很高。...一些关于如何分块和数据存放位置的元信息，如源码中的partitioner和preferredLocations 例如： a.一个从分布式文件系统中的文件得到的RDD具有的数据块通过切分各个文件得到的，...它是没有父RDD的，它的计算函数知识读取文件的每一行并作为一个元素返回给RDD； b.对与一个通过map函数得到的RDD，它会具有和父RDD相同的数据块，它的计算函数式对每个父RDD中的元素所执行的一个函数...2、RDD在Spark中的地位及作用（1）为什么会有Spark？...因为Spark是用scala语言实现的，Spark和scala能够紧密的集成，所以Spark可以完美的运用scala的解释器，使得其中的scala可以向操作本地集合对象一样轻松操作分布式数据集。

1.2K5 0

Hive on spark的搭建记录原

最近做Hive on spark的任务，记录下。...不能使用从apache spark官网下载的bin直接使用，因为那个里面，有与hadoop/hive有关的代码，我们要自己编译。 1、编译Spark1.6.0 从github下载spark源码。...PATH=$SCALA_HOME/bin:$PATH 之后进行spark源码目录，使用List-3.1.2中的命令进行打包，之后会看到一个名为"spark-1.6.0-bin-hadoop2-without-hive.tgz...在hdfs上新建目录/yarn，并将List-3.1.2中得到的spark-assembly-1.6.0-hadoop2.6.0.jar放到hdfs的/yarn目录下；在hdfs上新建目录/opt/applogs...之后重启hive，如果要对表中的数据进行update/delete，那么建的表是"clustered by xxxxx..."

1.4K3 1

Spark 的惰性运算

(RDD Operations) 在 Spark 中，所有的 transformation() 类型操作都是延迟计算的，Spark 只是记录了将要对数据集进行的操作。...典型的 Spark Job 逻辑执行图如下所示，Spark Job 经过下面四个步骤可以得到最终执行结果：从数据源（可以是本地 file，内存数据结构， HDFS，HBase 等）读取数据创建最初的...Spark 在每次 transformation() 的时候使用了新产生的 RDD 来记录计算逻辑，这样就把作用在 RDD 上的所有计算逻辑串起来形成了一个链条，逻辑执行图上表示的实际上就是是 Spark...得到的迭代器作为f方法的一个参数。compute方法会将迭代器中的记录一一输入f方法，得到的新迭代器即为所求分区中的数据。 iterator方法 iterator方法的实现在 RDD 类中。...这时候会有两种可能情况发生：数据之前已经存储在存储介质当中，可能是数据本身就在存储介质（如读取 HDFS 中的文件创建得到的 RDD）当中，也可能是 RDD 经过持久化操作并经历了一次计算过程。

2.7K2 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark教程（一）为什么要学spark

在Docker中快速使用各个版本（从10g到23c）的Oracle数据库

MongoDB + Spark: 完整的大数据解决方案

Scala学习之相同的函数名

hadoop生态圈各个组件简介

盘点大数据生态圈，那些繁花似锦的开源项目

一文了解 NebulaGraph 上的 Spark 项目

在Docker中快速使用Oracle的各个版本（从10g到21c）的数据库

PySpark与MongoDB、MySQL进行数据交互

大数据技术之_28_电商推荐系统项目_01

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

大数据技术之_28_电商推荐系统项目_02

Spark与mongodb整合完整版本

SparkSQL极简入门

盘点大数据生态圈，那些繁花似锦的开源项目

原荐 SparkSQL简介及入门

开发大数据基础教程(前端开发入门)

技术分享 | Spark RDD详解

Hive on spark的搭建记录原

Spark 的惰性运算

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐