如何根据字段的值对DF进行模式推断？_根据值对结构中的字段进行排序_如何根据R中的文件名对df进行更改？ - 腾讯云开发者社区

apache-spark、pyspark

我有一个根据my_type的值更改结构的字段my_structure，例如 +--------------------+--------------------+| c| ['X']| my_structure的结构根据my_type的<

浏览 18提问于2021-04-14得票数 0

1回答

大型集合的蒙戈火花推断模式

mongodb、apache-spark、apache-spark-sql、spark-dataframe

我使用mongo db火花连接器( mongo -火花-连接器_2.10)来读取mongo文档.我的问题是关于模式推理。我看到芒果火花正在使用MongoSinglePartitioner来推断模式。因此，当我尝试对大型集合(几百万个文档)进行示例以推断模式时，它非常缓慢。默认样本大小为1000。是否有任何理由让芒戈火花使用SinglePartitioner来推断模式而不是使用多个分区。我想从集合中读取所有字

浏览 1提问于2017-02-14得票数 1

1回答

在SparkR中处理重复列

sparkr

我正在处理一个问题，在这个问题上，我需要加载大量的CSV并使用SparkR对它们进行一些聚合。 df1

浏览 2提问于2016-03-07得票数 0

1回答

以其他列值为条件的估算-泰坦尼克号数据集年龄估算以类别和性别为条件

python、pandas、scikit-learn、sklearn-pandas

我正在处理泰坦尼克号的数据集，并希望对丢失的年龄值进行估算。我想根据Pclass和性别进行推算-例如，以头等舱中所有女性的平均年龄为例(显然对每个班级以及男性和女性都是这样做的)。我觉得像df.groupby这样的东西(“Pclass”，“Sex”)会把Pclass和Sex组合在一起，然后我可以根据这些特征来推断年龄。我没有包含代码，因为到目前为

浏览 17提问于2020-06-18得票数 0

1回答

在Spark结构的流中读取嵌套Json

json、apache-spark、spark-structured-streaming

从kafka收到的数据为json格式。我使用样例json创建模式，稍后在代码中使用from_json函数将json转换为数据帧以进行进一步处理。我面临的问题是嵌套模式和多值。示例模式将标记(比如a)定义为结构。从kafka读取的json数据对于同一标签可以有一个或多个值(两个不同的值)。val df0= spark.read.format("json").load("c

浏览 6提问于2019-06-11得票数 0

1回答

PySpark:使用有1000个字段但列数可变的模式创建RDD->DF->Parquet

apache-spark、hadoop、elasticsearch、pyspark、parquet

我正在尝试读取一个ElasticSearch索引，该索引有数百万个文档，每个文档都有可变数量的字段。我有一个模式，它有1000个字段，每个字段都有自己的名称和类型。现在，当我创建一个RDD低谷ES-Hadoop连接器，然后通过指定模式转换为DataFrame时，它失败了- 我有几个问题。1.是否可能有一个包含可变字段数的RDD/<em

浏览 0提问于2019-03-11得票数 2

1回答

读取pyspark dataframe中的jsonb类型字段？

json、pyspark

我有一个从Postres数据库读取的表，其中一个字段是包含嵌套数组的jsonb类型字段。在Postgres中，数组可以在表中的行级更改，这意味着键/值对的数量可以更改。推断模式会将字段设置为字符串类型。Pyspark是否支持jsonb类型字段并推断字段类型的模式？

浏览 1提问于2020-10-22得票数 0

1回答

火花DataFrame读写

scala、apache-spark、hive

它碰巧所有的消息都遵循一种灵活的模式。例如，一列“金额”的值可以是- 1.0或1。由于我正在将数据从半结构化格式转换为结构化格式，但我的模式略有变化，因此我认为像json这样的数据源的inferSchema选项将对我有所帮助。案例2:对于更大的数据，一些拼板文件的数量为双倍，而另一些则有int64。我试着调试，并发现了一些概念，比如模式进化和模式合并，这让我产生了更多的<

浏览 0提问于2018-11-18得票数 1

回答已采纳

1回答

databricks CSV导入时间戳空问题

csv、null、timestamp、databricks

我正在努力学习Databricks学院的Spark课程，并在Databricks社区版中进行实践。在某种程度上，我需要从CSV创建一个表。我正在尝试用UI创建表。我正在检查“第一行是标题”和“推断模式”框。birthDate字段在预览窗格中显示为字符串。根据课程材料，它应该是时间戳。但是，如果我将字段类型更改为时间戳，则数据将加载空值。如果我将birthDate字段保留为原来的(String)，则数据正在正确加载。

浏览 6提问于2020-06-28得票数 1

回答已采纳

1回答

case类中具有正确空值的星火模式

apache-spark、apache-spark-sql、apache-spark-ml、apache-spark-dataset、spark-csv

对于自定义Estimator`s的transformSchema方法，我需要能够将输入数据帧的模式与在case类中定义的模式进行比较。通常，这可以像下面概述的那样执行。但是，使用了错误的空值：root |-- CUSTOMER_ID: integer

浏览 1提问于2016-11-27得票数 6

回答已采纳

2回答

Julia pandas语法select values from conditional

pandas、syntax、julia

在Python的pandas中，如果我有一个具有n列的DataFrame，并且我想将满足某些条件的行保留在特定的列中，我只需输入：df[df.column1 > 0]，我找不到在Julia pandas中执行此操作的正确语法。

浏览 2提问于2017-11-29得票数 0

1回答

火花流-自定义接收器和dataframe推断模式

scala、apache-spark、dataframe

在代码的主要部分，当我这样做println(df.collectorg.apache.spark.sql.catalyst.expressions.BaseGenericInternalRow$class.getDouble(rows.scala:44) 现在，模式包括String和Int字段。我已经核实过了，按类型划分的现场匹配。然而，看起来

浏览 2提问于2016-09-29得票数 0

2回答

在大查询中创建表

google-bigquery

例如，它给我的结果是(两列都是整数)：但是我想要的结果是(String)：尽管我已经这样保存了xls，但当我将文件保存为csv时，它消除了前面的零。谢谢

浏览 0提问于2020-04-23得票数 0

1回答

数据流JSON值在dataframe列scala中的应用

json、scala、spark-streaming

我有一个带有json值的文本文件。这会被解读成DF{"name":"Andy", "age":30} 我希望在流时动态地推断每一行的模式，并根据其模式将其存储在不同的位置(表)中。不幸的是，当我试图读取value.schema时，它仍然显示为字符串。请帮助如何在

浏览 0提问于2020-03-09得票数 0

1回答

PySpark平面映射应该返回带有类型化值的元组

python、pyspark、namedtuple、flatmap

其中，我有一个具有列名和类型(整数，.)的模式的dataframe为了那些专栏。现在我使用了像flatMap这样的方法，但是这会返回一个不再有固定类型的元组列表。有办法做到这一点吗？df.printSchema() |-- name: string (nullable = true) |-- ...然后，我使用flatMap对评级值进

浏览 5提问于2016-05-14得票数 1

回答已采纳

1回答

在使用pyspark和预定义的结构模式读取嵌套JSON时，如何将缺少的列添加为null

python、json、apache-spark

，并能够将所有字段(包括数据中缺失的字段)填充为NULL。因为，对于某一天的负载，可能会发生这样的情况:在struct字段的book数组中，任何输入数据都没有author列。因此，如果我不使用模式，spark将无法推断该列，因为任何输入数据都没有该列。这是我尝试过的， 1> df = spark.read.schema(schema).json('/input/

浏览 22提问于2020-09-13得票数 2

2回答

对弹性搜索查询的无模式支持

json、elasticsearch、schemaless

REST允许用户将自定义的无模式JSON添加到我们的REST资源中，我们需要在Elasticsearch中搜索它。这种自定义数据及其结构在同一类型的资源之间可以完全不同。favoriteColor": "red", "someKey": "someValue" } 除了customData之外，所有字段都坚持模式customD

浏览 11提问于2015-07-01得票数 8

1回答

如何解析混合嵌套和非嵌套结构的json？

json、scala、apache-spark、nested、apache-spark-sql

在文件1中，JSON元素"image“是嵌套的。": 200, "height": 200}}val df1 = spark.read.json("/xxx/xxxx/xxxx/nested1.json")val df2 = spark.read.json("/xxx/xxx/xxx/nes

浏览 0提问于2017-10-29得票数 1

回答已采纳

2回答

Azure Synapse -如何从同一集合中包含多个类型的Azure Cosmos DB容器中读取数据？

azure-cosmosdb、azure-synapse

因此，根据类型，密钥对会发生变化。我正在尝试使用以下代码从Synapse的这个容器中读取数据： cfg = {"spark.cosmos.accountKey": accountKey,"spark.cosmos.container": containerName, dfco

浏览 58提问于2021-10-28得票数 0

回答已采纳

1回答

JSON文件解析-在创建星火数据帧时忽略格式错误的记录

python、pyspark、spark-dataframe

我正在创建一个spark，其中模式是从json records.But推断出来的，其中一些json数据集的行比其他行有更多的列，因此数据格式解析失败。我是否可以将空值替换为缺少的额外列的记录。= sqlContext.createDataFrame(rdd_of_rows,samplingRatio=1,verifySchema=False) 我的模式非常复杂，因此我使用的是推断<

浏览 2提问于2017-10-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云