SparkContext数据集Json文件_车牌检测JSON数据集_如何创建宏以从数据集创建JSON文件 - 腾讯云开发者社区

、、、

我有这个JSON文件： { "type": "Article", "name": "Massimo Zancanaro" ], 1, 5,

浏览 19提问于2021-01-29得票数 0

2回答

带有检查点的Spark session空指针

、、、

如果检查点目录中没有文件，spark streaming可以正常工作，并且我可以看到日志文件出现在检查点目录中。然后我关闭spark streaming并重启它。简而言之，如果检查点目录中没有日志文件，spark streaming就可以正常工作。StorageLevel.MEMORY_AND_DISK_SER); rdd => {

浏览 5提问于2017-09-13得票数 1

2回答

在spark scala中读取多行文件中的JSON文件

、、、

我有一个如下的JSON文件： { "age": "13", "sex": "m"]val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jsonFile = sqlContext.read.<em

浏览 2提问于2016-09-18得票数 3

回答已采纳

2回答

Spark是否在read上维护拼花地板分区？

、、、

假设我向parquet编写了一个数据帧，并结合使用repartition和partitionBy来获得一个分区良好的parquet文件。df.repartition(col("DATE")).write.partitionBy("DATE").parquet("/path/to/parquet/file")val df = spark.read.parquet("/path&

浏览 5提问于2018-06-13得票数 15

2回答

如何加载一个20 in的json文件来读入pandas？

、、、

我有一个19.4 GB大小的JSON文件。我尝试了很多方法来读取文件。例如：pandas.read_json(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。例如，一次1 db，然后将其转储到SQLite或neo4j数据库中以分析数据。任何关于这方面的想法都会非常感谢。

浏览 17提问于2021-01-05得票数 0

1回答

从R代码保存数据

、、

我通过hdfs将spark中的示例稍加修改，使其能够在ec2集群上工作。但我只得到了一个例子，用于保存到拼花文件。library(SparkR) sc <- sparkR.init()saveAsParquetFile(teenagers, file.path("/teenagers")) #

浏览 1提问于2015-07-23得票数 1

回答已采纳

2回答

读取多个json文件时出错Pyspark

、

我正在尝试将大约300个单独的json文件读取到pyspark中。IllegalArgumentException: 'Unsupported class file major version 56'import pysparksc = SparkContext(appName='azure_test', conf=conf)

浏览 1提问于2019-07-25得票数 0

2回答

如何用Java在spark中加载多行JSON

、、、

我正在寻找一种使用Java将多行JSON加载到Spark中的方法。Spark有加载SQLContext的方法，但它只支持“每行一条记录”。我有一个需要处理的多行JSON文件。示例输入: JSON包含单词、定义和例句："one-armedbandit": { "function": "noun",

浏览 0提问于2016-02-02得票数 1

回答已采纳

1回答

我是Spark和HDInsight的新手。我想知道下面的代码是如何工作的？我的意思是如何在集群节点之间调度作业。假设我有2个头节点和4个工作节点，哪些代码将在头节点上运行，哪些代码将在工作节点上运行？我如何让Spark知道我想要在工作节点上执行一些代码？ // the code is from https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-eventhub-streamingval pool = Executors.new

浏览 30提问于2019-09-24得票数 0

1回答

scala -无法创建SparkContext和SparkSession

、、

我正在尝试读取csv文件，因此我创建了一个SparkSession来读取csv。此外，我还创建了一个SparkContext，以便稍后使用rdd。我正在使用scala-ide。{SparkConf, SparkContext}import org.apache.spark.mllib.stat.Statistics("Create contex for rdd ") val conf = new SparkConf(

浏览 6提问于2018-04-06得票数 0

2回答

spark写入拼花面板文件。如何指定行组大小？

、、、

我正在努力寻找如何在Spark API中指定拼图文件写入器的行组大小。

浏览 5提问于2017-10-25得票数 1

2回答

将JSONArray转换为

、

Gibson", "DeptCode":"20", }]Dataset<Row> dataset = session.read().<em

浏览 16提问于2022-01-13得票数 2

回答已采纳

1回答

将文件列表(JSON)转换为dataframe

、、

我想要做的是加载大量JSON文件并将它们转换为DataFrame --也可能将它们保存为CSV或parquet文件以供进一步处理。每个JSON文件代表最后一个DataFrame中的一行。]) file_paths = glob.glob(os.path.join(HDFS_MOUNT, DATA_SET_BASE, '**/*.jsonprint('Found {:d} files'.format

浏览 0提问于2018-02-12得票数 0

回答已采纳

2回答

我可以读取csv文件从谷歌存储使用星火在多个执行器？

、、、

我在谷歌桶中压缩了几个csv文件，它们按小时分组在文件夹中，这意味着另一个应用程序将其中的几个文件保存在以小时为名称的文件夹中。我基本上是让一个Spark应用程序读取所有这些文件--数千个文件--并使用如下所示的简单代码： .format("csv") .option(我不能使用多个执行器并行读取这些文件并加快处理速度吗？怎么做？我正在基本地尝试创建一个临时视图，其中包含来自Spark的进一

浏览 3提问于2020-04-13得票数 2

1回答

将数据集从spark中的网站加载到rdd

、、

我用tar.gz文件从pyspark的网站加载数据集。dataset=spark.sparkContext.textFile('https://www.example/example.tar.gz') ( url只是一个例子)和dataset.collect

浏览 9提问于2019-11-16得票数 0

回答已采纳

2回答

如何使用scala在spark中合并两个不同的rdd

、、

请在使用2个rdd的并集时给予帮助，2个不同rdd的行应包含相同的no个元素，或者它们的大小可以不同......？

浏览 0提问于2016-09-12得票数 0

1回答

Spark Structured streaming ForeachWriter无法获取sparkContext

、、、

我正在从Kafka queue usingSpark结构化流中读取JSON数据，但我需要将JSON数据写入Elasticsearch。但是，我不能让sparkContext在ForeachWriter中将JSON转换为RDD。它抛出NPE。如何在写入器中让SparkContext将JSON转换为RDD？

浏览 6提问于2017-02-22得票数 1

0回答

Spark计算用户发推文的次数

、、

我必须计算一个用户发tweeted的次数，数据在一个JSON文件中。我尝试了groupByKey和reduceByKey，但输出是用户id和tweet本身，而不是tweet的数量。代码：from pyspark.sql import SQLContext sqlc = SQLContext(sc) df = sqlc.

浏览 0提问于2017-12-05得票数 0

回答已采纳

4回答

在pyspark中读取json文件

、、

我是PySpark新手，下面是我来自kafka的JSON文件格式。新列表将用于创建火花数据框架。我怎样才能用pyspark.I来做这件事呢?我尝试了下面的代码。parsed = messages.map(lambda (k,v): json.loads(v))summed = parsed.map(lambda detail:list.append错误执行器:mapreduce.job.id 1.0中的异常在阶段0.0 (TID 1) org.apache.spark.api.python.Pytho

浏览 7提问于2016-09-10得票数 10

回答已采纳

1回答

Pyspark-将每个数据帧保存到单个文件

、

我正在尝试将过滤后的数据帧保存回相同的源文件。我编写了以下代码，将目录中每个文件的内容转换为单独的Dataframe，对其进行过滤，然后将其保存回相同的文件 df = df.filter('d != 721') df.write.save(path, format="js

浏览 17提问于2020-06-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云