腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
有
一个
StructType
模式
。
我
想
以
相同
的
格式
将它
存储
在
一个
单独
的
文件
中
,
并在
我
的
Spark
程序
中
从
该
文件
中
读取
它
scala
、
apache-spark
、
schema
我
有
下面的
模式
,val schema = new
StructType
( Array( StructField("Age",IntegerType,true), StructField("Name",StringType,true), ) )
我
想
将它
保存在
一个
单独
的
文件
中
,
格式
相同
,
并在
我</em
浏览 21
提问于2021-09-14
得票数 2
1
回答
json
文件
向三角湖
的
动态
模式
演化
json
、
databricks
、
delta-lake
、
dbt
我
正在建立
一个
三角洲湖,
我
正在努力将我
的
json数据加载到三角洲湖。我们
有
100种不同
的
json
文件
格式
。都
存储
在
一个
数据湖里。现在,
我
试图避免编写100种不同
的
python笔记本,而是构建
一个
元数据驱动
的
笔记本,
它
应该能够处理所有不同
的
json
格式
。
我
能
浏览 2
提问于2022-02-05
得票数 0
2
回答
如何将带nullable = false
的
架构应用于json
读取
apache-spark
我
试图用json
文件
编写一些用于数据
文件
的
测试用例(而生产将是parquet)。
我
使用
的
是火花测试基框架,
在
断言数据帧相等时遇到了麻烦,因为
模式
不匹配,json
模式
总是
有
nullable = true。import com.holdenkarau.<e
浏览 4
提问于2017-11-22
得票数 12
回答已采纳
2
回答
Avro
模式
引发
StructType
java
、
apache-spark
、
apache-spark-sql
、
avro
这实际上与我
的
相同
,但使用Avro而不是JSON作为数据
格式
。
我
正在使用
一个
Spark
dataframe,它可以
从
几个不同
的
模式
版本中加载数据:{"namespace": "com.example.avro", .format("co
浏览 1
提问于2015-11-25
得票数 7
3
回答
星星之火:
在
分区拼花数据
中
读取
DateType列时出错
python
、
apache-spark
、
amazon-s3
、
pyspark
、
parquet
我
有
S3
中
的
拼图数据,由nyc_date
以
s3://mybucket/mykey/nyc_date=Y-m-d/*.gz.parquet
格式
分区。
我
有
一个
DateType列event_date,由于某种原因,当我尝试使用EMR
从
S3
读取
并写入hdfs时,会抛出这个错误。: Local :-):
我
以
相同<
浏览 6
提问于2016-12-14
得票数 14
回答已采纳
2
回答
用电火花把地板点燃
scala
、
apache-spark
、
spark-dataframe
、
avro
、
parquet
我
有
一个
avro
格式
化数据流(json编码),
它
需要
存储
在
拼花
文件
中
。
我
只能这么做,然后把df写成地板。在这里,
模式
是
从
json推断出来
的
。但是
我
已经
有
了avsc
文件
,
我
不希望
spark
从
浏览 2
提问于2016-03-18
得票数 4
回答已采纳
2
回答
Pyspark:
从
JSON
文件
创建
模式
pyspark
、
apache-spark-sql
、
jsonschema
我
正在处理来自非常长
的
嵌套JSON
文件
的
数据。问题是,这些
文件
的
结构并不总是与其他
文件
的
列
相同
。
我
希望
从
包含所有列
的
空JSON
文件
中
创建
一个
自定义
模式
。如果
我
稍后将JSON
文件
读入这个预定义
的
模式
中
,则不存在
的</
浏览 7
提问于2021-10-26
得票数 3
回答已采纳
1
回答
在
Python
中
为
spark
.read()使用json
文件
中
包含
的
模式
python
、
json
、
pyspark
、
schema
问题:
我
将以下
模式
硬编码到python脚本
中
,这对于我
的
代码非常有效: StructField("computer_name", StringType()), StructField("ow
浏览 3
提问于2021-08-09
得票数 0
回答已采纳
1
回答
在
avro
模式
中表示
spark
`
StructType
`
apache-spark
、
avro
、
parquet
如何描述avro
模式
中
的
spark
StructType
数据类型?
我
正在生成
一个
拼图
文件
,其
格式
在
avro
模式
中
描述。然后将该
文件
从
S3加载到
spark
中
。存在array和map数据类型,但这些数据类型与
StructType
不对应。
浏览 18
提问于2020-04-06
得票数 0
1
回答
用S3
读取
DataFrameReader
文件
java
、
amazon-web-services
、
apache-spark
、
amazon-s3
、
databricks
嗨,
我
在用S3
读取
文件
时遇到了问题--当
文件
是本地
的
时候,
我
能够
读取
完全
相同
的
文件
,但是当
它
存储
在
s3上时,
我
无法
读取
它
,下面是
我
的
代码片段 private SparkSession getSparkSession
structType
, String src
浏览 1
提问于2017-02-09
得票数 0
回答已采纳
3
回答
用多RowTags
读取
Spark
中
的
XML
文件
spark-dataframe
、
databricks
、
apache-spark-xml
我
想将
一个
包含3个不同RowTags
的
巨大XML
文件
读入
中
。 有没有办法
在
一次
读取
中
读取
该<em
浏览 6
提问于2017-08-18
得票数 0
3
回答
如何将HDFS小
文件
合并为
一个
大
文件
?
bash
、
scala
、
apache-spark
、
hdfs
我
有
从
Kafka流生成
的
小
文件
的
数量,所以我喜欢合并小
文件
到
一个
单一
的
文件
,但这种合并是基于日期,即原始
文件
夹可能有以前
的
文件
数量,但我只喜欢合并给定
的
日期
文件
到
一个
单一
的
文件
。
有
什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
2
回答
复杂嵌套数据
的
火花数据
scala
、
apache-spark
、
apache-spark-sql
、
azure-databricks
我
有
3个数据
文件
,目前称为dfA、dfB和dfC。dfB说是5科尔。第二种方法,是对dFA记录
的
FK引用。#^ Zip #^Zip#^Zip街#^Zip城市#^Zip#^Zip使用
Spark
我
想
将它
加载到这样
一个
浏览 0
提问于2019-04-18
得票数 1
1
回答
如何在
spark
-avro 2.4
模式
中
设置logicalType?
scala
、
apache-spark
、
avro
、
spark-avro
我们
从
应用
程序
中
的
avro
文件
中
读取
时间戳信息。
我
正在测试
从
Spark
2.3.1升级到
Spark
2.4
的
过程,其中包括新内置
的
spark
-avro集成。
从
使用Databricks
spark
-avro 4.0.0包查看
Spark
2.3.1下
的
测试avro
文件</
浏览 36
提问于2019-02-07
得票数 2
回答已采纳
2
回答
火花推断器
模式
在
read.csv期间有限制
apache-spark
我
想从
一个
CSV
文件
目录
中
,使用一小部分行(例如,
Spark
.DataFrame )来推断
一个
CSV
模式
。但是,将inferSchema设置为True意味着FileScanRDD
的
Input Size / Records似乎总是等于所有CSV
文件
中
的
行数。是否
有
一种方法可以使FileScan更具选择性,例如在推断
模式
时,
Spark
可以查
浏览 0
提问于2019-04-29
得票数 4
回答已采纳
1
回答
如何通过配置
文件
在
dataframe
中
添加
模式
scala
、
apache-spark
我
有
一个
文件
,
我
正在将其转换为Dataframe。对于
模式
,
我
希望
从
配置
文件
中
读取
它
。
我
不想在代码
中
给出硬编码
的
模式
,因为它可能会随着时间
的
推移而改变,所以我们将
模式
放在
一个
单独
的
文件
中</em
浏览 0
提问于2019-05-21
得票数 1
1
回答
如何使用闪烁
读取
文件
并使用Scala写入
一个
简单
的
文件
?
scala
、
apache-spark
、
spark-streaming
、
parquet
我
试图使用scala SparkStreaming
程序
读取
一个
文件
。该
文件
存储
在
本地计算机上
的
一个
目录
中
,并试图将其写入本地计算机本身上
的
一个
新
文件
。但是,每当我写
我
的
流,并
将它
作为地板
存储
,
我
最终得到空白
文件
夹。这是
我
<
浏览 1
提问于2016-12-13
得票数 0
回答已采纳
2
回答
火花拼花
模式
演变
apache-spark
、
parquet
我
有
一个
分区
的
hdfs拼板位置,它有不同
的
模式
是不同
的
分区。 第
一个
分区中有5个列,第二个分区中有4个科尔。现在
我
尝试
读取
基本
的
Parquet路径,然后过滤第二个分区。这给了我DF
中
的
5列,即使
我
在
第二个分区
的
Parquet
文件
中
只有4列。当我直接读第二个分区时,
它<
浏览 6
提问于2020-03-17
得票数 2
4
回答
如何在星火中创建架构
文件
scala
、
apache-spark-sql
、
schema
、
orc
我
正在尝试
读取
一个
Schema
文件
(这是
一个
文本
文件
),并
将它
应用到我
的
CSV
文件
中
,而没有头
文件
。因为
我
已经
有
了
一个
模式
文件
,所以我不想使用InferSchema选项,这是一种开销。
我
的
输入
模式
文件
如下, "num Intege
浏览 1
提问于2018-05-24
得票数 5
回答已采纳
1
回答
火花读CSV -没有显示corroupt记录
apache-spark
、
apache-spark-sql
、
databricks
Spark
有
一个
读取
Permissive
文件
的
CSV
模式
,它将corroupt记录
存储
到
一个
名为_corroupt_record
的
单独
列
中
。允许--当所有字段遇到损坏
的
记录时,将其设置为null,并将所有损坏
的
记录放置
在
名为_corrupt_record
的
字符串列
中
。但是,当我尝试下面的示例时
浏览 0
提问于2019-10-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark之SparkSQL
Linux文件系统深度讨论
Python 文件与目录操作方法总结
Python基础教程 shelve和json
而人工智能是否可以成为科技界的先驱呢?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券