腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
根据
字段
的
值
对
DF
进行
模式
推断
?
apache-spark
、
pyspark
我有一个
根据
my_type
的
值更改结构
的
字段
my_structure,例如 +--------------------+--------------------+| c| ['X']| my_structure
的
结构
根据
my_type
的
<
浏览 18
提问于2021-04-14
得票数 0
1
回答
大型集合
的
蒙戈火花
推断
模式
mongodb
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我使用mongo db火花连接器( mongo -火花-连接器_2.10)来读取mongo文档.我
的
问题是关于
模式
推理。 我看到芒果火花正在使用MongoSinglePartitioner来
推断
模式
。因此,当我尝试
对
大型集合(几百万个文档)
进行
示例以
推断
模式
时,它非常缓慢。默认样本大小为1000。是否有任何理由让芒戈火花使用SinglePartitioner来
推断
模式
而不是使用多个分区。我想从集合中读取所有
字
浏览 1
提问于2017-02-14
得票数 1
1
回答
在SparkR中处理重复列
sparkr
我正在处理一个问题,在这个问题上,我需要加载大量
的
CSV并使用SparkR
对
它们
进行
一些聚合。
df
1
浏览 2
提问于2016-03-07
得票数 0
1
回答
以其他列
值
为条件
的
估算-泰坦尼克号数据集年龄估算以类别和性别为条件
python
、
pandas
、
scikit-learn
、
sklearn-pandas
我正在处理泰坦尼克号
的
数据集,并希望
对
丢失
的
年龄
值
进行
估算。我想
根据
Pclass和性别
进行
推算-例如,以头等舱中所有女性
的
平均年龄为例(显然
对
每个班级以及男性和女性都是这样做
的
)。我觉得像
df
.groupby这样
的
东西(“Pclass”,“Sex”)会把Pclass和Sex组合在一起,然后我可以
根据
这些特征来
推断
年龄。我没有包含代码,因为到目前为
浏览 17
提问于2020-06-18
得票数 0
1
回答
在Spark结构
的
流中读取嵌套Json
json
、
apache-spark
、
spark-structured-streaming
从kafka收到
的
数据为json格式。我使用样例json创建
模式
,稍后在代码中使用from_json函数将json转换为数据帧以
进行
进一步处理。我面临
的
问题是嵌套
模式
和多值。示例
模式
将标记(比如a)定义为结构。从kafka读取
的
json数据对于同一标签可以有一个或多个
值
(两个不同
的
值
)。val
df
0= spark.read.format("json").load("c
浏览 6
提问于2019-06-11
得票数 0
1
回答
PySpark:使用有1000个
字段
但列数可变
的
模式
创建RDD->
DF
->Parquet
apache-spark
、
hadoop
、
elasticsearch
、
pyspark
、
parquet
我正在尝试读取一个ElasticSearch索引,该索引有数百万个文档,每个文档都有可变数量
的
字段
。我有一个
模式
,它有1000个
字段
,每个
字段
都有自己
的
名称和类型。现在,当我创建一个RDD低谷ES-Hadoop连接器,然后通过指定
模式
转换为DataFrame时,它失败了- 我有几个问题。1.是否可能有一个包含可变
字段
数
的
RDD/<em
浏览 0
提问于2019-03-11
得票数 2
1
回答
读取pyspark dataframe中
的
jsonb类型
字段
?
json
、
pyspark
我有一个从Postres数据库读取
的
表,其中一个
字段
是包含嵌套数组
的
jsonb类型
字段
。在Postgres中,数组可以在表中
的
行级更改,这意味着键/
值
对
的
数量可以更改。
推断
模式
会将
字段
设置为字符串类型。Pyspark是否支持jsonb类型
字段
并
推断
字段
类型
的
模式
?
浏览 1
提问于2020-10-22
得票数 0
1
回答
火花DataFrame读写
scala
、
apache-spark
、
hive
它碰巧所有的消息都遵循一种灵活
的
模式
。例如,一列“金额”
的
值
可以是- 1.0或1。由于我正在将数据从半结构化格式转换为结构化格式,但我
的
模式
略有变化,因此我认为像json这样
的
数据源
的
inferSchema选项将对我有所帮助。案例2:对于更大
的
数据,一些拼板文件
的
数量为双倍,而另一些则有int64。 我试着调试,并发现了一些概念,比如
模式
进化和
模式
合并,这让我产生了更多
的<
浏览 0
提问于2018-11-18
得票数 1
回答已采纳
1
回答
databricks CSV导入时间戳空问题
csv
、
null
、
timestamp
、
databricks
我正在努力学习Databricks学院
的
Spark课程,并在Databricks社区版中
进行
实践。在某种程度上,我需要从CSV创建一个表。 我正在尝试用UI创建表。我正在检查“第一行是标题”和“
推断
模式
”框。birthDate
字段
在预览窗格中显示为字符串。
根据
课程材料,它应该是时间戳。但是,如果我将
字段
类型更改为时间戳,则数据将加载空
值
。如果我将birthDate
字段
保留为原来
的
(String),则数据正在正确加载。
浏览 6
提问于2020-06-28
得票数 1
回答已采纳
1
回答
case类中具有正确空
值
的
星火
模式
apache-spark
、
apache-spark-sql
、
apache-spark-ml
、
apache-spark-dataset
、
spark-csv
对于自定义Estimator`s
的
transformSchema方法,我需要能够将输入数据帧
的
模式
与在case类中定义
的
模式
进行
比较。通常,这可以像下面概述
的
那样执行。但是,使用了错误
的
空
值
:root |-- CUSTOMER_ID: integer
浏览 1
提问于2016-11-27
得票数 6
回答已采纳
2
回答
Julia pandas语法select values from conditional
pandas
、
syntax
、
julia
在Python
的
pandas中,如果我有一个具有n列
的
DataFrame,并且我想将满足某些条件
的
行保留在特定
的
列中,我只需输入:
df
[
df
.column1 > 0],我找不到在Julia pandas中执行此操作
的
正确语法。
浏览 2
提问于2017-11-29
得票数 0
1
回答
火花流-自定义接收器和dataframe
推断
模式
scala
、
apache-spark
、
dataframe
在代码
的
主要部分,当我这样做println(
df
.collectorg.apache.spark.sql.catalyst.expressions.BaseGenericInternalRow$class.getDouble(rows.scala:44) 现在,
模式
包括String和Int
字段
。我已经核实过了,按类型划分
的
现场匹配。然而,看起来
浏览 2
提问于2016-09-29
得票数 0
2
回答
在大查询中创建表
google-bigquery
例如,它给我
的
结果是(两列都是整数):但是我想要
的
结果是(String):尽管我已经这样保存了xls,但当我将文件保存为csv时,它消除了前面的零。谢谢
浏览 0
提问于2020-04-23
得票数 0
1
回答
数据流JSON
值
在dataframe列scala中
的
应用
json
、
scala
、
spark-streaming
我有一个带有json
值
的
文本文件。这会被解读成
DF
{"name":"Andy", "age":30} 我希望在流时动态地
推断
每一行
的
模式
,并
根据
其
模式
将其存储在不同
的
位置(表)中。不幸
的
是,当我试图读取value.schema时,它仍然显示为字符串。请帮助
如何
在
浏览 0
提问于2020-03-09
得票数 0
1
回答
PySpark平面映射应该返回带有类型化
值
的
元组
python
、
pyspark
、
namedtuple
、
flatmap
其中,我有一个具有列名和类型(整数,.)
的
模式
的
dataframe为了那些专栏。现在我使用了像flatMap这样
的
方法,但是这会返回一个不再有固定类型
的
元组列表。有办法做到这一点吗?
df
.printSchema() |-- name: string (nullable = true) |-- ...然后,我使用flatMap
对
评级
值
进
浏览 5
提问于2016-05-14
得票数 1
回答已采纳
1
回答
在使用pyspark和预定义
的
结构
模式
读取嵌套JSON时,
如何
将缺少
的
列添加为null
python
、
json
、
apache-spark
,并能够将所有
字段
(包括数据中缺失
的
字段
)填充为NULL。因为,对于某一天
的
负载,可能会发生这样
的
情况:在struct
字段
的
book数组中,任何输入数据都没有author列。 因此,如果我不使用
模式
,spark将无法
推断
该列,因为任何输入数据都没有该列。这是我尝试过
的
, 1>
df
= spark.read.schema(schema).json('/input/
浏览 22
提问于2020-09-13
得票数 2
2
回答
对
弹性搜索查询
的
无
模式
支持
json
、
elasticsearch
、
schemaless
REST允许用户将自定义
的
无
模式
JSON添加到我们
的
REST资源中,我们需要在Elasticsearch中搜索它。这种自定义数据及其结构在同一类型
的
资源之间可以完全不同。favoriteColor": "red", "someKey": "someValue" } 除了customData之外,所有
字段
都坚持
模式
customD
浏览 11
提问于2015-07-01
得票数 8
1
回答
如何
解析混合嵌套和非嵌套结构
的
json?
json
、
scala
、
apache-spark
、
nested
、
apache-spark-sql
在文件1中,JSON元素"image“是嵌套
的
。": 200, "height": 200}}val
df
1 = spark.read.json("/xxx/xxxx/xxxx/nested1.json")val
df
2 = spark.read.json("/xxx/xxx/xxx/nes
浏览 0
提问于2017-10-29
得票数 1
回答已采纳
2
回答
Azure Synapse -
如何
从同一集合中包含多个类型
的
Azure Cosmos DB容器中读取数据?
azure-cosmosdb
、
azure-synapse
因此,
根据
类型,密钥
对
会发生变化。我正在尝试使用以下代码从Synapse
的
这个容器中读取数据: cfg = {"spark.cosmos.accountKey": accountKey,"spark.cosmos.container": containerName,
df
co
浏览 58
提问于2021-10-28
得票数 0
回答已采纳
1
回答
JSON文件解析-在创建星火数据帧时忽略格式错误
的
记录
python
、
pyspark
、
spark-dataframe
我正在创建一个spark,其中
模式
是从json records.But
推断
出来
的
,其中一些json数据集
的
行比其他行有更多
的
列,因此数据格式解析失败。我是否可以将空
值
替换为缺少
的
额外列
的
记录。= sqlContext.createDataFrame(rdd_of_rows,samplingRatio=1,verifySchema=False) 我
的
模式
非常复杂,因此我使用
的
是
推断
<
浏览 2
提问于2017-10-31
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
99%都不知道!一行代码实现Excel排序!
掌握这5种方法,让你使用python进行数据分析可以事半功倍
Elastic Stack-Elasticsearch使用介绍(二)
Python一行命令生成数据分析报告
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券