腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scala
将
json
读入
多个
spark
数据
帧
json
、
apache-spark
、
dataframe
我的
json
结构是这样的: { "persons": [], "meta": { ] "memberships": [], "areas": [] }
浏览 6
提问于2019-03-02
得票数 0
回答已采纳
1
回答
创建
spark
数据
集时出现问题
apache-spark-sql
我正在尝试
将
json
读入
数据
帧
,然后再
读入
数据
集。我正面临着下面的问题。谁能快点帮帮我。root| |-- city: string (nullable
scala
> case class addr
浏览 0
提问于2016-10-08
得票数 0
1
回答
使用
hive优化hive
数据
聚合
apache-spark
、
optimization
、
hive
、
distributed-computing
、
bigdata
我有一个带有followig模式(event_id,country,unit_id,date)的hive表(8,000,000条记录),我需要将这些
数据
导出到一个文本文件中,满足以下要求:1- event_id
使用
spark
完成这项工作的最佳性能明智解决方案是什么? 注意:这应该是一个批处理作业。
浏览 6
提问于2017-05-05
得票数 0
1
回答
如何将我在R中创建的
JSON
对象读取到sparkR中
json
、
r
、
sparkr
、
typeconverter
、
rjsonio
我想获取我在R中创建的
数据
帧
,并将其转换为
JSON
对象,然后将该
JSON
对象
读入
sparkR。对于我目前的项目,我不能简单地
将
一个
数据
帧
传递到SparkR中,然后必须执行这个绕过弯的方法才能让我的项目正常工作。我也不能先创建一个本地
JSON
文件来
读入
sparkR,所以我尝试创建一个
JSON
对象来保存我的
数据
,然后再将其
读入
sparkR。在我读过的其他文章中,<em
浏览 4
提问于2017-08-04
得票数 0
1
回答
根据
spark
中给出的参数,从csv/
json
/parquet读取
数据
帧
scala
、
dataframe
、
apache-spark
因此,我
使用
以下代码
将
csv文件读取到
Spark
(
scala
)中的dataframe中: val dataframe=
spark
.read .option("sep", args(0))我希望对此输入进行泛化,以便根据第三个参数args(2),可以
使用
模式sch
将
csv、
json
或parquet格式
读入
我的
数据
帧
中。 实现这一目标的最佳方法是什么?
浏览 11
提问于2021-04-07
得票数 1
回答已采纳
1
回答
从文件系统中填充Properties对象
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
、
databricks
TL:DR或者,是否有一种方法可以
将
星火
数据
帧
行转换为一组文本键/值对(
Scala
会理解)?尝试从"dbfs:/“或"/dbfs”读取文件时,在
使用
scala
.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(?)的URI。不过,我能够将该文件
读入
Spark
,但
浏览 4
提问于2020-12-29
得票数 1
回答已采纳
0
回答
替换
Spark
数据
帧
中Array[long]中的分隔符
scala
、
apache-spark
、
apache-spark-sql
我正在
将
一个
JSON
文件
读入
Scala
中的
spark
数据
框中。我有一个
JSON
字段,比如
Spark
会自动推断此字段的
数据
类型为Arraylong。当我尝试将其转换为arraystring时,输出显示为
scala
> val cmrdd = sc.textFile("/user&
浏览 1
提问于2017-12-11
得票数 2
回答已采纳
1
回答
如何从嵌套的
JSON
构建
Scala
映射?
scala
、
apache-spark
、
elasticsearch-hadoop
我有一个带有嵌套字段的嵌套
json
数据
,我想提取这些
数据
并构造一个
Scala
。, }, "airport": "sjc", }我希望
使用
并构造一个
Scala
来
将
字段索引到ES索引中,}, "type":
浏览 1
提问于2019-01-03
得票数 0
回答已采纳
1
回答
spark
dataframe到rdd的转换需要很长时间
scala
、
apache-spark
、
apache-spark-sql
我正在
将
一个社交网络的
json
文件
读入
spark
。我从这些
数据
中得到一个
数据
帧
,我将其分解以获得对。这个过程运行得很完美。val social_network =
spark
.read.
json
(my/path) // 200MBval E1 = exploded_network.as[(VertexId, Ve
浏览 1
提问于2017-03-20
得票数 3
1
回答
如何
使用
pyspark
将
bz2文件读取到
数据
帧
中?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我可以
使用
以下命令
将
json
文件
读入
Pyspark中的dataframe中df =
spark
.read.
json
("path to
json
file") 但是,当我尝试
将
bz2(压缩的csv)读取到
数据
帧
中时,它给我一个错误。
浏览 1
提问于2018-06-05
得票数 7
1
回答
DataFrame na()填充方法和不明确引用的问题
apache-spark
、
dataframe
我
使用
的是
Spark
1.3.1,其中连接两个
数据
帧
会重复连接的列。我在外部连接两个
数据
帧
,希望
将
结果
数据
帧
发送到na().fill()方法,以便根据列的
数据
类型
将
空值转换为已知值。我有涉及
多个
列的连接。我是否只需要确保存在一组惟一的列名,而不管我应用na().fill()方法的dataFrame中的表别名是什么?给定:
scala
> val df1 = s
浏览 4
提问于2016-02-28
得票数 3
3
回答
字符串列包含通过
spark
scala
进行精确匹配的单词
scala
、
apache-spark
、
apache-spark-sql
我有两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有
多个
关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方):
数据
帧
-2:我想要的输出:我在这里
使用
spark
scala
。我
使用
了like、rlike、contains等函数,但它没有给出我想要的输出。有人知
浏览 1
提问于2021-02-12
得票数 0
1
回答
Apache
Spark
,正在读取outlook .pst文件
apache-spark
、
pst
我正在尝试从安然电子邮件中读取
数据
,然后对其进行分析。目前,所有的文件都是压缩的,然后是.pst格式。 有没有办法
将
.pst
数据
直接
读入
spark
?我目前正在
使用
libPST扩展Java中的PST,映射到
JSON
,然后
将
json
加载到
数据
帧
中。
浏览 5
提问于2016-10-09
得票数 2
1
回答
在火花中读取
json
缺少的
json
数据
源
json
、
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我试图
使用
下面的代码
将
一个示例
json
文件
读入
SqlContext中,但是它失败了,随后出现了
数据
源错误。jsondata = sqlContext.read.
json
(path) java.lang.ClassNotFoundException:未能找到
数据
源:
json
。(DataFrameReader.
scala
:109),org.apache,找到包裹.
spark
.sql.DataFrameReader.<
浏览 3
提问于2016-06-28
得票数 0
回答已采纳
1
回答
在
Spark
2.4中从
spark
-shell写入AVRO
scala
、
apache-spark
、
apache-spark-sql
、
avro
Spark
2.4.0 on Java 1.8.0_161 (
Scala
2.11.12) 运行命令:
spark
-shell --jars=
spark
-avro_2.11-2.4.0.jar 目前正在
使用
小的avro文件处理一些POC,我希望能够
读入
(单个) AVRO文件,进行更改,然后将其写回。(DataSource.
scala
:523) at org.apache.
spark
.sql.DataFrameWriter.saveToV1Source(
浏览 108
提问于2019-05-01
得票数 0
1
回答
使用
部分模式的
Spark
read
json
apache-spark
、
apache-spark-sql
、
spark-dataframe
我需要
使用
spark
处理一个相当大的
json
文件。我不需要
json
中的所有字段,实际上我只想读取其中的一部分(而不是读取所有字段和项目)。我想知道我是否可以
使用
json
连接器,并为它提供一个只包含我感兴趣加载的字段的部分读取模式。
浏览 0
提问于2017-07-14
得票数 0
3
回答
使用
pyspark,如何
将
文件中一行上的
多个
JSON
文档读取到一个
数据
帧
中?
apache-spark
、
dataframe
、
pyspark
、
apache-spark-sql
使用
Spark
2.3,我知道我可以像这样读取
JSON
文档文件:{'key': 'val2'}
spark
.
json
.read('filename') 当
JSON
文档之间没有换行符时,我如何将以下内容
读入
到
数据
帧
中?{'key': 'val1'}{
浏览 0
提问于2018-07-13
得票数 9
2
回答
如何
将
gzip压缩的
json
行文件
读入
PySpark dataframe?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我有一个
JSON
行文件,希望将其
读入
PySpark
数据
框架中。文件是压缩压缩的。文件名如下所示:file.jl.gzdf= pd.read_
json
('file.jl.gz', lines=True, compression='gzip)是否有一种方法可以将该文件
读入
pyspark
数据
格式?:242) at org.apache.
spark</e
浏览 3
提问于2020-12-27
得票数 0
回答已采纳
3
回答
在
spark
1.6中
将
csv读取为
数据
帧
scala
、
apache-spark
我
使用
的是
Spark
1.6,正在尝试
将
csv (或tsv)文件读取为
数据
帧
。以下是我采取的步骤:
scala
> import sqlContext.implicits._
scala
> .format(
浏览 12
提问于2016-07-27
得票数 2
3
回答
如何
将
数据
集写入Kafka主题?
scala
、
apache-spark
、
apache-kafka
、
apache-spark-sql
我
使用
的是
Spark
2.1.0和Kafka 0.9.0。val df = Seq(("Rey", "23"), ("John", "44")).toDF("key", "value") val newdf = df.select(to_
json
(struct.KafkaSour
浏览 3
提问于2018-04-06
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark之SparkSQL
Spark简史:从AMP lab到大数据王者
遇见YI算法之初识Pyspark(二)
Spark 如何 post 数据
2018年数据科学前15名的Scala库
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券