从Spark数据帧构造Java哈希图

Spark是一个基于内存的分布式计算框架，用于处理大规模数据集的计算任务。Spark提供了丰富的API，其中包括Spark SQL模块，可以用于处理结构化数据。在Spark SQL中，Spark数据帧（DataFrame）是一种分布式的数据集合，类似于关系型数据库中的表。

构造Java哈希图的过程可以分为以下几个步骤：

创建SparkSession对象：首先，需要创建一个SparkSession对象，它是与Spark相关的入口点，用于执行Spark SQL操作。

SparkSession spark = SparkSession.builder()
    .appName("Java Hash Graph Example")
    .master("local[*]")  // 在本地运行，[*]表示使用所有可用的CPU核心
    .getOrCreate();

加载数据：接下来，需要加载数据源并将其转换为数据帧。数据可以来自多种数据源，例如文件、数据库或外部API。

Dataset<Row> dataFrame = spark.read().json("path/to/json/file");

处理数据：在获得数据帧后，可以对其进行各种转换和操作，例如筛选、聚合、排序等。

Dataset<Row> filteredDataFrame = dataFrame.filter("age > 30");

构造哈希图：通过使用Spark SQL的内置函数或自定义函数，可以对数据帧进行哈希图的构造。

Dataset<Row> hashGraph = filteredDataFrame.groupBy("name").agg(collect_list("friend"));

显示结果：最后，可以将结果以各种形式进行展示，例如打印到控制台、保存到文件或可视化展示。

hashGraph.show();

这是一个基本的从Spark数据帧构造Java哈希图的示例。在实际应用中，可以根据具体需求进行更复杂的数据处理和图构建操作。对于更多关于Spark SQL的详细信息和使用方法，可以参考腾讯云提供的Apache Spark简介和Spark SQL文档。

请注意，上述示例仅提供了一种构造Java哈希图的方法，实际场景中可能还需要考虑数据规模、分布式计算的性能和资源管理等因素。

从Spark数据帧构造Java哈希图

、、、

我在我的项目中使用了带有Java 8的spark-sql-2.4.1v。我需要从给定的数据帧构造一个循环哈希图，如下所示： List ll = Arrays.asList( ("aaaa", 11), ("aaa", 12), ("aa", 13), ("a", 14) ) Dataset<Row> codeValudeDf = ll.toDF( "code", "value") 给定上述数据帧，我需要创建一个hashmap

浏览 11提问于2020-07-17得票数 0

回答已采纳

1回答

从文件系统中填充Properties对象

、、、、

TL:DR 有办法从Databricks文件系统读取Scala/Java属性文件吗？或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spark，但是尝试填充java.utils.Properties对象时出错，因为它不接受Spark的“行”类型。我尝试将数据帧更改为Array和Li

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

Spark -无法为结构数组创建架构

、

我试图为一个包含结构数组的数据帧创建一个相当简单的模式，但我就是不能让它工作。我已经在SO上读到了几个类似的问题，但仍然不起作用。我已经经历了几次迭代。这是我目前的尝试： val theSchema = StructType ( StructField("dateTime",StringType,true), StructField("sys",StringType,true), StructField("attribs",ArrayType(StructType(StructField("attribNam

浏览 16提问于2020-01-01得票数 0

回答已采纳

1回答

在spark中使用HiveContext引发异常

、、

我必须使用HiveContext而不是SQLContext，因为我使用了一些只能通过HiveContext才能使用的窗口函数。我在我的pom.xml中添加了以下几行： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version> </dependency> 而我运行代码的机器上的spark版本也是1.6.0，但是，当

浏览 3提问于2017-03-07得票数 2

回答已采纳

2回答

从Pandas数据帧创建Spark DataFrame错误

、、、、

我正在尝试从Pandas Dataframe创建Spark Dataframe，并尝试了许多解决方法，但仍然失败。这是我的代码，我只是简单地尝试遵循许多基本示例中的一个： test = pd.DataFrame([1,2,3,4,5]) type(test) from pyspark import SparkContext sc = SparkContext(master="local[4]") sqlCtx = SQLContext(sc) spark_df = sqlCtx.createDataFrame(test) 我曾尝试使用具有2000列和数十万行的pandas

浏览 0提问于2018-03-20得票数 0

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。从该表中卸载数据后，我尝试使用我创建的Schema读取数据。但是我希望读取的每个BooleanType列都有"f“/ "t”值。这会导致解析异常。例外情况是： java.lang.IllegalArgumentException: For input string: "f" at scala.collection.immutable.StringLike$class.parseBoolean(StringLike.scala:290) a

浏览 1提问于2017-11-22得票数 3

1回答

有没有办法在spark中静态连接到redshift数据库？

、、

我使用的是spark API spark.read.jdbc(String url,String table,java.util.Properties properties)。它使用从数据库表返回的模式创建数据帧。每次我调用上述API时，它都会创建一个到DB集群的连接请求。有没有办法在上面的API中传递或创建单例类的东西？

浏览 15提问于2020-04-27得票数 0

2回答

在spark中，如何从没有列名的CSV文件创建带模式的dataframe？

、、、

我有一个只有数据但没有列名的CSV文件，现在我想用这个CSV文件的数据在Spark中创建一个数据帧，并为它创建模式(列名和数据类型)。我的代码如下： import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc) val employee = sqlContext.read.format("com.databricks.spark.csv") .option("header", "false") .option("inferSchema",

浏览 52提问于2019-02-26得票数 0

2回答

将dataframe中的字符串数据转换为双精度

、、

我有一个包含双type.When的csv文件，我加载到一个数据帧中，我收到这个消息，告诉我类型字符串是java.lang.String，不能转换为java.lang.Double，尽管我的数据是numeric.How，我是否应该修改代码，从这个包含双type.how的csv文件中获得数据帧？ import org.apache.spark.sql._ import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types.{ArrayTy

浏览 2提问于2017-01-02得票数 4

1回答

创建pyspark的spark context py4j java网关对象

、、、

我正在尝试将java数据帧转换为pyspark数据帧。为此，我在java进程中创建了一个数据帧(或行的数据集)，并在Java端启动了一个py4j.GatewayServer服务器进程。然后，在Python端，我创建了一个py4j.java_gateway.JavaGateway()客户机对象，并将其传递给pyspark的SparkContext构造函数，以便将其链接到已经启动的jvm进程。但是我得到了这个错误:- File: "path_to_virtual_environment/lib/site-packages/pyspark/conf.py", line 120, in

浏览 6提问于2021-03-25得票数 0

1回答

使用spark_read_csv()从Rstudio服务器中的Azure Blob存储中读取CSV文件

、、、

我已经在Spark 2.2上配置了Azure HDInsight集群类型的ML服务(R服务器)，操作系统Linux，版本ML服务9.3，使用Java8HDI3.6。在Rstudio服务器中，我正在尝试从我的blob存储中读取csv文件。 Sys.setenv(SPARK_HOME="/usr/hdp/current/spark-client") Sys.setenv(YARN_CONF_DIR="/etc/hadoop/conf") Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf") Sys.seten

浏览 0提问于2018-11-13得票数 0

1回答

在linux机器上使用s3a对于>100列拼接失败

、、、、

我使用s3a从数据库读取数据帧并写入.parquet(s3a://bucketname//folder)。它适用于<100列的数据帧，但crashes.exits spark-shell适用于>100列的数据帧。如果是列限制/版本问题/内存问题，是否找不到任何材料？希望能从经验丰富的社区中找到一些方向。 PS。下面的代码可以在我的本地机器上的Eclipse Windows上运行，但在linux实例上会出现问题 spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8 def execute(sql:String) = {//defin

浏览 15提问于2021-05-20得票数 1

回答已采纳

1回答

如何将java复杂对象转换为spark dataframe

、、

我正在使用java spark，下面是我的代码。 JavaRDD<MyComplexEntity> myObjectJavaRDD = resultJavaRDD.flatMap(result -> result.getMyObjects()); DataFrame df = sqlContext.createDataFrame(myObjectJavaRDD, MyComplexEntity.class); df.saveAsParquetFile("s3a://mybucket/test.parquet"); MyComplexEntity.java

浏览 2提问于2020-09-11得票数 0

0回答

无法在spark/pyspark中创建数组文字

、

我在尝试根据要过滤的两列项目列表从dataframe中删除行时遇到了麻烦。例如，对于此数据帧： df = spark.createDataFrame([(100, 'A', 304), (200, 'B', 305), (300, 'C', 306)], ['number', 'letter', 'id']) df.show() +------+------+---+ |number|letter| id| +------+------+---+ | 100| A|304| | 20

浏览 2提问于2017-01-07得票数 12

回答已采纳

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： root |-- id: string (nullable = true) |-- url: string (nullable = true) 但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： root |-- crawl: struct (nullable = true) | |-- id: string (nullable = true) 然后我得到以下异常： Exception in thread "main" java.lang

浏览 4提问于2016-06-27得票数 1

1回答

线程"main“org.apache.spark.sql.catalyst.parser.ParseException异常

、、

我有以下数据帧： dataframe1 +-----------------------+ |ID | +-----------------------+ |[10,80,60,] | |[20,40,] | +-----------------------+ 和另一个数据帧： dataframe2 +------------------+----------------+ |ID_2 | name | +------------------+-------

浏览 76提问于2020-08-15得票数 0

1回答

尝试在Spark中读取拼花时出错

、、

我使用的是Python Spark 2.4.3 我读取了CSV，并从中生成了一个数据帧，然后将其写入到Parquet中。第三行就是中断的部分。 df = spark.read.csv("file.csv", header=True) df.write.parquet("result_parquet") parquetFile = spark.read.parquet("result_parquet") 我得到了这个： Py4JJavaError: An error occurred while calling o1312.parquet. : j

浏览 10提问于2019-07-20得票数 1

3回答

在spark 1.6中将csv读取为数据帧

、

我使用的是Spark 1.6，正在尝试将csv (或tsv)文件读取为数据帧。以下是我采取的步骤： scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc) scala> import sqlContext.implicits._ scala> val df = sqlContext.read scala> .format("com.databricks.spark.csv") scala> .option("header", "true") sc

浏览 12提问于2016-07-27得票数 2

1回答

将星火流数据流加载到MongoDB中

、、、

我正在从事一个项目，在该项目中，我拥有以下数据管道： Twitter MongoDB→Tweepy API (流)→Kafka→火花(实时情绪分析)→Tableau 我能够利用Tweepy获得推特流到卡夫卡制片人，从生产者到卡夫卡消费者。然后我使用卡夫卡消费者的Twitter Stream作为数据源，我在星火(PySpark)中创建了一个“流数据框架”，进行了实时的预处理和情感分析，由此产生的“流数据框架”需要进入MongoDB，这就是问题所在。我能够将“静态”PySpark数据帧写入MongoDB，但不能编写流数据帧。详情如下： mongo_conn = "mongodb+srv

浏览 19提问于2022-11-21得票数 0

1回答

Spark Java堆错误

、、、

我不确定这里发生了什么以及为什么。我有一个数据帧，这是加载为熊猫和火花数据帧。数据帧是稀疏的，这意味着大部分数据都是零。它的尺寸是56K×9K。所以不是很大我还在spark/conf/spark-defaults.conf文件中放入了以下命令 spark.driver.memory 8g spark.executor.memory 2g spark.driver.maxResultSize 2g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value s

浏览 2提问于2016-09-07得票数 1

1回答

内存中的火花--多次迭代

、、、、

我有一个火花作业(运行在spark 1.3.1中)，它必须迭代几个键(大约42)并处理作业。这是程序的结构从地图上拿钥匙从蜂箱(下面的hadoop-纱线)获取数据，该数据与数据帧相匹配。过程数据将结果写入蜂箱当我只运行一个键的时候，一切都很好。当我使用42个键运行时，会在第12次迭代时得到内存不足的异常。有什么方法可以在每次迭代之间清理内存吗？帮助感激。下面是我正在使用的高级代码。 public abstract class SparkRunnable { public static SparkContext sc = null; public stati

浏览 3提问于2016-10-31得票数 2

1回答

Spark (JAVA) -具有多个聚合的dataframe groupBy？

、

我正在尝试用JAVA在Spark上写一个groupBy。在SQL中，这将如下所示 SELECT id, count(id) as count, max(date) maxdate FROM table GROUP BY id; 但是什么是Spark/JAVA风格的等价物呢？假设变量SQL是一个数据帧，以查看与table查询的关系。我的想法是这样的： table = table.select(table.col("id"), (table.col("id").count()).as("count"), (table.col("date

浏览 15提问于2016-07-15得票数 8

回答已采纳

1回答

Apache Spark，正在读取outlook .pst文件

、

我正在尝试从安然电子邮件中读取数据，然后对其进行分析。目前，所有的文件都是压缩的，然后是.pst格式。有没有办法将.pst数据直接读入spark？我目前正在使用libPST扩展Java中的PST，映射到JSON，然后将json加载到数据帧中。

浏览 5提问于2016-10-09得票数 2

1回答

作为web服务器的Spark长时间运行程序

我已经编写了多个spark驱动程序，它们将一些数据从HDFS加载到数据帧中，并在其上完成spark sql查询，然后将结果再次持久化到HDFS中。现在我需要提供一个长时间运行的java程序，以便通过post和get从web应用程序(例如仪表板)接收请求及其一些参数(如应返回的顶部行数)，并将结果发送回web应用程序。我的web应用程序在Spark集群之外的某个地方。简而言之，我的目标是通过POST之类的东西从web应用程序发送请求及其附带的数据到长时间运行的java程序。然后，它接收请求并运行相应的spark驱动程序(spark app)并返回结果，例如以JSON格式返回结果。有没有什么解决

浏览 2提问于2016-11-06得票数 0

1回答

使用Java/Scala将Spark Dataframe复制到Google Cloud Bigtable

、、、、

我正在使用Spark进行我的大数据操作，我想将我的Spark数据帧复制到Google Cloud Bigtable。有没有什么例子/库/API可以帮助我做到这一点？是用Java还是Scala？一个Java或Scala的例子会很有帮助。

浏览 1提问于2018-04-17得票数 1

1回答

将Spark数据帧转换为Spark DenseMatrix进行操作

、、、

我在互联网上找遍了，却找不到如何简单地将spark中的数据帧转换成矩阵，这样我就可以对其进行矩阵运算。我如何在Spark 2中简单地实现这一点？

浏览 0提问于2017-02-18得票数 2

2回答

将数据帧从Spark写入Teradata表

、、、

到目前为止，我可以使用Teradata jdbc连接器for Spark从Teradata读取数据帧。阅读的语法如下： val df = hc.read.format("jdbc").options( Map( "url" -> url, "dbtable" -> (sel * from tableA) as data, "driver" -> "com.teradata.jdbc.TeraDriver" ) ).load() 其中hc = hiveContex

浏览 1提问于2016-11-15得票数 2

1回答

注入后，我的bean总是返回空。

、、

这是我的代码，我不知道为什么我的bean MouvementToMapItemProcessor不被注入，它在构造函数中总是空的 @Autowired private MouvementToMapItemProcessor mvts; private Iterator it; public InMemoryMouvementReader() { it = mvts.getMouvmentFileRowMap().entrySet().iterator(); } 下面是我的配置类： @Configuration @EnableBatchProc

浏览 2提问于2017-12-30得票数 0

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

写入Parquet/Kafka:线程"dag-scheduler-event-loop“java.lang.OutOfMemoryError异常

、、、、

我正在尝试修复在我的spark设置中看到的一个外存问题，在这一点上，我无法得出一个具体的分析，为什么我会看到这个。在将数据帧写到parquet或kafka时，我总是会遇到这个问题。我的数据帧有5000行。它的模式是 root |-- A: string (nullable = true) |-- B: string (nullable = true) |-- C: string (nullable = true) |-- D: array (nullable = true) | |-- element: string (contains

浏览 0提问于2017-09-14得票数 0

2回答

使用h2o mojo模型对spark集群并行化问题进行预测

、、

我在Spark集群上使用h2o模型( mojo格式)时遇到了问题，但只有当我尝试并行运行它时，而不是当我使用collect并在驱动程序上运行它时。由于我预测的数据帧具有超过100个特征，因此我使用以下函数将数据帧行转换为h2o的RowData格式(来自)： def rowToRowData(df: DataFrame, row: Row): RowData = { val rowAsMap = row.getValuesMap[Any](df.schema.fieldNames) val rowData = rowAsMap.foldLeft(new RowData()) { cas

浏览 1提问于2018-01-03得票数 0

1回答

Spark在IDE中创建数据帧(使用databricks-connect)

、、、、

我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。使用： import spark.implicits._ var Table_Count = Seq((cdpos_df.count(),I_count,D_count,U_count)).toDF("Table_Count","I_Count","D_Count","U_Count") 给出错误消息value toDF is not a member of Seq[(Long, L

浏览 69提问于2021-09-14得票数 0

1回答

如何将数据推送到phoenix is块

、、、

我是这个领域的新手。我正在尝试将数据从spark推送到phoenix。数据的大小超过100万。spark作业在10万条记录的情况下运行良好，但当记录数超过100万条时就会卡住。我正在从hive加载数据 val hive_data = spark.sql(query) 把它推向凤凰城 hive_data.write.format("org.apache.phoenix.spark").mode(SaveMode.Overwrite).options(collection.immutable.Map( "zkUrl" -> zkUrl,

浏览 26提问于2021-06-26得票数 0

1回答

比较和突出显示了使用spark和java的两种数据格式的差异。

、、、

我正在使用spark和java来尝试比较两种数据帧。一旦我将csv文件转换成数据帧，我想要高亮显示两个数据帧之间更改的内容.。它们都有相同的列。如您所见，下面的数据帧唯一不正确的地方是第二代数据帧中的emp_id 4.。 Dataset<Row> df1 = spark.read().csv("/Users/dataframeOne.csv"); Dataset<Row> df1 = spark.read().csv("/Users/dataframeTwo.csv"); df1.unionAll(df2).except(df1.

浏览 6提问于2021-10-03得票数 2

1回答

Spark-sql在没有安装hive的情况下能工作吗？

、、

我已经在一个干净的ubuntu实例上安装了spark 2.4.0。Spark数据帧工作得很好，但是当我尝试对数据帧使用spark.sql时，比如在下面的例子中，我得到了一个错误“无法访问metastore。这个类不应该在运行时被访问”。 spark.read.json("/data/flight-data/json/2015-summary.json") .createOrReplaceTempView("some_sql_view") spark.sql("""SELECT DEST_COUNTRY_NAME, sum(coun

浏览 176提问于2018-12-17得票数 3

回答已采纳

1回答

Spark使用数据帧读取CSV文件并从PostgreSQL DB中查询

、、

我是Spark的新手，我正在使用下面给出的数据框代码加载一个巨大的CSV文件 Dataset<Row> df = sqlContext.read().format("com.databricks.spark.csv").schema(customSchema) .option("delimiter", "|").option("header", true).load(inputDataPath); 现在在数据框中加载CSV数据后，现在我想遍历每一行，并基于一些列从PostgreSQL

浏览 24提问于2021-01-08得票数 0

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用： 1)用于拉取数据的Spark数据帧2)在初始聚合后转换为pandas数据帧3)想要转换回Spark以写入HDFS 从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。你能给点建议吗？ from pyspark.sql import SparkSession import pyspark.sql.functions as sqlfunc from pyspark.sql.types import * import argparse, sys from pyspark.sql import

浏览 1提问于2018-10-23得票数 15

回答已采纳

2回答

spark.read.format('libsvm')不使用python

、、

我正在学习PYSPARK，遇到了一个我无法修复的问题。我按照这段视频从PYSPARK文档中复制代码来加载线性回归的数据。我从文档中得到的代码是spark.read.format('libsvm').load('file.txt')。我在这个btw之前创建了一个spark数据帧。当我在Jupyter notebook中运行这段代码时，它总是给我一些java错误，这个视频中的人和我做了完全相同的事情，但他没有得到这个错误。有人能帮我解决这个问题吗？非常感谢！

浏览 0提问于2019-12-09得票数 2

1回答

错误TableInputFormat: Java.lang.NullPointerException at org.Apache.Hadoop.hbase.TableName.valueOf

、、、、

我正在尝试使用Spark从HBase读取数据。我使用的版本是Spark1.3.1和HBASE1.1.1。我收到了跟随错误 ERROR TableInputFormat: java.lang.NullPointerException at org.apache.hadoop.hbase.TableName.valueOf(TableName.java:417)

浏览 2提问于2015-11-04得票数 0

回答已采纳

1回答

对pyspark dataframe执行重复数据删除时遇到内存错误

、

我对pyspark还是个新手，在对数据帧进行重复数据删除时遇到了问题。我的数据帧中有3个字段: PersonId、PlaceId和ThingId。下面是一个示例： PersonTest = [1,1,2,2,2,3,4] PlaceTest = [['A', 'B'],['A', 'B', 'C'],['C'],['C','D','E','F'],['C','D','F'],['

浏览 10提问于2020-09-02得票数 1

回答已采纳

1回答

不能摄取DF到elasticsearch

、、、

我正在读取星火-scala中的拼花文件，并进行计算和过滤。我想从elasticsearch中摄取最终的数据帧。我试过跟踪，但没能让它工作。 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession, SQLContext} import org.apache.spark.sql.functions._ import org.apache.spark.sql.SQLContext._ import org.elasticsearch.spark._ val spark = SparkSession.builder.appNam

浏览 0提问于2019-01-17得票数 0

3回答

如何将注册为spark表的表放入数据帧

、、、

我已经使用spark-thriftserver connection将表从PostgreSQL数据库导入到spark-sql中，现在我可以从直线上看到这些表。有没有办法把这些表格转换成spark数据帧？

浏览 1提问于2016-09-25得票数 2

1回答

使用pyarrow的topandas()返回空的dataframe

、、、、

我有一个五百万行250列的spark数据帧。当我使用"spark.sql.execution.arrow.enabled"作为"true"对这个数据帧进行topandas()转换时，它返回一个只包含列的空数据帧。在禁用pyarrow的情况下，出现以下错误 Py4JJavaError: An error occurred while calling o124.collectToPython. : java.lang.OutOfMemoryError: GC overhead limit exceeded 有没有办法通过增加某种类型的内存分配来执行此操作？我找不

浏览 0提问于2020-10-22得票数 0

1回答

Spark Scala将数据帧写入MongoDB

、、、

我正尝试以此为指导将转换后的数据框写入MongoDB https://docs.mongodb.com/spark-connector/master/scala/streaming/ 到目前为止，我从MongoDB读取数据帧工作得很好。如下所示。 val mongoURI = "mongodb://000.000.000.000:27017" val Conf = makeMongoURI(mongoURI,"blog","articles") val readConfigintegra: ReadConfig = ReadConf

浏览 43提问于2020-08-09得票数 0

回答已采纳

1回答

处理每个分区和每个分区中的每一行，一次处理一个

、、、、

浏览 13提问于2019-09-23得票数 0

0回答

从大型火花数据帧到H2O数据帧的H2O闪水错误

、、、

当我尝试从spark数据帧转换为H2O数据帧时，我得到以下错误。这似乎与数据帧的大小有关，因为当我将它变小时，spark和H2O之间的转换器工作得很好。是否有需要更改的配置，以便将大型spark数据帧转换为使用火花水的H2O？在我的配置中，我允许驱动程序和执行器使用最大内存，所以这不是内存问题。我在这里使用R，代码是： training<-as_h2o_frame(sc, final1, strict_version_check = FALSE) 错误： Error: org.apache.spark.SparkException: Job aborted due to stage

浏览 3提问于2017-06-14得票数 3

1回答

为什么我无法读取这些数据帧

、、

我在读取几个数据帧时遇到了问题。我有这个功能 def readDF(hdfsPath:String, more arguments): DataFrame = {//function goes here} 它获取分区的hdfs路径并返回一个数据帧(它基本上使用spark.read.parquet，但我必须使用它)。我正在尝试通过以下方式使用show partitions来阅读其中的几篇文章： val dfs = spark.sql("show partitions table") .where(col("partition").contains(someFil

浏览 10提问于2019-01-10得票数 0

回答已采纳

1回答

将值从一个哈希图复制到另一个哈希图

、、、

我有两个哈希图 Map<String, Employee> employees Map<String, Address> address Employee和Address类如下所示： class Employee { String name, String city } class Address { String city } 如果这两个哈希图(employees和address)之间的键匹配，我如何将城市值从"address“哈希图复制到”employees“哈希图的Employee对象中的城市？我想使用函数式java 8声明式复制，而不使用fo

浏览 9提问于2021-02-02得票数 0

2回答

Apache抛出java.lang.IllegalStateException:未读块数据

、、、

我们正在做的是：根据网站上的文档，安装Spark0.9.1以及hadoop/hdfs的CDH4 (和另一个带有CDH5的集群)发行版。用sbt构建一个fat应用程序，然后尝试在集群上运行它我还包括代码片段和底部的sbt dep。当我搜索到这一点时，似乎有两个有点模糊的回答：( a)节点/用户代码b上的火花版本不匹配)需要向SparkConf添加更多的jars 现在，我知道(b)不是在其他集群上成功运行相同代码的问题，而只包含一个jar (这是一个胖jar)。但是，我不知道如何检查(a) -- Spark似乎没有任何版本检查或任何东西--如果它检查了版本并抛出了“错误匹

浏览 0提问于2014-05-17得票数 6

回答已采纳

1回答

数据帧的scala joinWithCassandraTable结果

、、

我正在使用Datastax spark- Cassandra -connector来访问Cassandra中的一些数据。我的需求是将RDD与Cassandra表连接起来，获取结果并将其存储在hive表中。我正在使用joinWithCassandraTable加入cassadra表。加入后，生成的RDD如下所示 com.datastax.spark.connector.rdd.CassandraJoinRDD[org.apache.spark.sql.Row, com.datastax.spark.connector.CassandraRow] = CassandraJoinRDD[17

浏览 20提问于2020-07-17得票数 0