腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4529)
视频
沙龙
2
回答
当
编码
时
Row
模式
未知
时
,
如何将
string
与
Row
合
并以
创建
新
的
spark
dataframe
?
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
、
schema
我已经
创建
了一个函数,它接受一行作为输入,并给出一个字符串作为输出。我计划将此函数应用于不同
模式
的
各种数据帧。这些数据帧非常庞大,每个数据帧有数百万行,但每个数据帧都有一个定义好
的
模式
我想
创建
另一个函数,它将调用第一个函数,将函数
的
输出字符串与它发送到函数
的
行合并,并
创建
一个
新
的
数据帧,该数据帧将作为第二个函数
的
输出我是
spark
-scala
的
浏览 46
提问于2019-10-15
得票数 0
回答已采纳
2
回答
星星之火:如果
DataFrame
有一个
模式
,
DataFrame
如何成为Dataset[
Row
]?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
声称
Spark
中
的
DataFrame
等同于Dataset[
Row
],但是显示
DataFrame
有一个
模式
。以博客文章中关于将RDD转换为
DataFrame
的
例子:如果
DataFrame
与
Dataset[
Row
]相同,那么将RDD转换为
DataFrame
应该是一样简单
的
。val rddToDF = rdd.map(value =>
Row
(v
浏览 0
提问于2016-10-07
得票数 6
回答已采纳
3
回答
如何在
Spark
中引入一行
模式
?
apache-spark
在
Row
Java API中有一个
row
.schema(),但是没有
row
.set(StructType
模式
)。我也尝试过RowFactorie.create(objets),但我不知道如何继续问题是,当我在workers中修改结构
时
,如何生成
新
的
数据帧 /
浏览 2
提问于2015-11-26
得票数 14
4
回答
当
试图将
dataframe
行映射到更新
的
行时出现
编码
器错误
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
、
apache-spark-encoders
当我试图在代码中执行
与
下面提到
的
相同
的
操作
时
val
row
1 =
row
.getAs[
String
](1)
Row
(
row
(0),make,<e
浏览 1
提问于2016-09-11
得票数 42
回答已采纳
2
回答
Apache -如何理解Hudi写操作
与
savemode?
pyspark
、
apache-spark-sql
、
apache-hudi
如何理解用upsert编写
的
hudi操作,而df保存了append呢?既然这将重新插入记录,为什么要追加而不是覆盖?有什么关系呢?如图所示:
浏览 5
提问于2022-07-26
得票数 0
2
回答
使用
Spark
DataFrame
在Cassandra表中插入数据
scala
、
apache-spark
、
spark-cassandra-connector
我使用
的
是Scala版本2.10.5、Cassandra 3.0和
Spark
1.6。scala> collection.saveToCassandra("test", "words", SomeColumns("word", "count"))val rowRDD = person.map(_.split(&q
浏览 0
提问于2016-12-21
得票数 6
回答已采纳
2
回答
在星火上
创建
动态ArrayIndexOutOfBoundsException
时
的
DataFrame
dataframe
、
scala
、
apache-spark
我
的
目标是从来自外部
dataframe
的
列和值动态
创建
一个
dataframe
。这是如何使用手动
模式
和数据定义
创建
dataframe
: val data = Seq(
Row
(=
spark
.createDataFrame(
spark
.sparkContext.parallelize(data
浏览 4
提问于2022-07-18
得票数 0
回答已采纳
3
回答
斯卡拉星火中
的
Encoder[
Row
]
scala
、
apache-spark-sql
、
spark-dataframe
我试图在
Spark
2.0.0中
的
Dataset[
Row
] (
DataFrame
)上执行一个简单
的
映射。像这样简单
的
事情df.map { r:
Row
=> r } 方法map:(隐式证据$7: EncoderRow)
的
参数不足。如果首先转换为RDD,一切都很好,但是不应该有一种像元组
浏览 5
提问于2016-09-30
得票数 2
1
回答
星星之火SQL - createDataFrame错误
的
结构
模式
apache-spark
、
dataframe
、
pyspark
、
apache-spark-sql
、
schema
当
尝试使用
Spark
创建
DataFrame
时
,向它传递如下所示
的
行列表: {'some-column': [{'timestamp': 135353453
浏览 1
提问于2018-11-19
得票数 0
回答已采纳
0
回答
为什么
Spark
DataFrames不改变他们
的
模式
,该怎么办?
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-structured-streaming
我正在使用
Spark
2.1
的
结构化流来读取Kafka主题,该主题
的
内容是二进制avro
编码
的
。("subscribe", config.getString("kafka.topic"))如果我打印这个
DataFrame
(messages.printSchema())
的
模式
()来应用转换,因为我需要为这样
的
BusinessObject提供一个隐式
编码
器。
浏览 1
提问于2017-01-05
得票数 2
回答已采纳
4
回答
在DataFrames上执行RDD操作
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-dataframe
、
rdd
我有一个包含10个字段
的
数据集。我需要在这些
DataFrame
上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我
的
示例代码:这是我
的
dataframe
,我需要将这个
dataframe
转换成RDD,并在这个
新
的
RDD上操作一些RDD下面是我
如何将
dataframe
转换为RDD<
浏览 2
提问于2016-12-14
得票数 0
1
回答
在对SnappyData运行JUnit
时
找不到Jetty
的
GzipHandler类
apache-spark
、
junit4
、
snappydata
SnappyData v.0-5**java.lang.NoClassDefFoundError: org/eclipse/jetty/server/handlerSparkContext sc = new SparkContext(conf); SnappyContext sna
浏览 6
提问于2016-08-06
得票数 1
3
回答
将JavaRDD转换为
DataFrame
时
的
火花错误: java.util.Arrays$ArrayList不是array<
string
>
模式
的
有效外部类型
java
、
apache-spark
对于下面的代码,它读取文本文件并将内容转换为
DataFrame
,然后输入到Word2Vector模型中:它抛出一个异常 这发生在input.show(3)行
浏览 3
提问于2017-04-23
得票数 3
6
回答
手动
创建
pyspark
我正在尝试手动
创建
一个具有特定数据
的
:rdd = sc.parallelize(
row
_in"lat", DecimalType(), True), ]df_in_test =
spark
.createDataFrame(rdd, sch
浏览 1
提问于2019-09-16
得票数 38
回答已采纳
3
回答
pySpark将mapPartitions
的
结果转换为
spark
DataFrame
python
、
apache-spark
、
pyspark
我有一个作业需要在分区
的
spark
数据帧上运行,该进程如下所示: rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是pandas.
dataframe
的
rdd, type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) => pandas.core.frame.
DataFrame
浏览 124
提问于2019-12-10
得票数 4
回答已采纳
4
回答
Apache
Spark
的
主键
database
、
postgresql
、
hadoop
、
apache-spark
我有一个
与
Apache
Spark
和PostgreSQL
的
JDBC连接,我想将一些数据插入到我
的
数据库中。当我使用append
模式
时
,我需要为每个
DataFrame
.
Row
指定id。有没有办法让
Spark
创建
主键?
浏览 2
提问于2015-10-13
得票数 33
回答已采纳
2
回答
Spark
2.0如何处理列空性?
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-spark-2.0
在最近发布
的
中,作者指出(第74页): 在回顾笔记和以前
的
支拉
时
,上面的说法似乎不再是真的。根据和,当在
DataFrame
<
浏览 2
提问于2017-11-24
得票数 6
回答已采纳
6
回答
如何在星火
DataFrame
中添加行I
的
持久列?
apache-spark
、
dataframe
、
apache-spark-sql
这个问题并不新鲜,但我在星火中发现了令人惊讶
的
行为。我需要向
DataFrame
添加一列行I。我使用了
DataFrame
方法monotonically_increasing_id(),它确实为我提供了额外
的
单个行I(顺便说一句,这些I不是连续
的
,而是唯一
的
)。我遇到
的
问题是,当我过滤
DataFrame
时
,结果
DataFrame
中
的
行in将被重新分配。这两个DataFrames如下所示。这个问题由row
浏览 0
提问于2016-02-29
得票数 37
回答已采纳
1
回答
检查GraphX图对象
apache-spark
、
spark-graphx
(
row
=> ((
row
.getAs[
String
]("toid").stripPrefix("osgb").toLong),
row
.getAs[
String
]("index"))) val verticesRDD= edges_raw.rdd.map(
row
=>(Edge(
row
.getAs[
String
]("positiveNode").stripPref
浏览 3
提问于2016-08-17
得票数 7
回答已采纳
1
回答
将类型化JavaRDD转换为行JavaRDD
apache-spark
、
dataframe
、
rdd
我正在尝试将一个类型化
的
rdd转换为行rdd,然后从它
创建
dataframe
。它在我执行代码
时
抛出异常。
Row
>) RowFactory::create);
DataFrame
df =
的
转换是否保留行工厂中
的
顺序?班级代码: long vid; byet[] bytes;
浏览 2
提问于2016-10-15
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
Spark之SparkSQL
HBaseSQL及分析-Phoenix&Spark
Spark SQL,DataFrames 以及 Datasets 编程指南
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券