腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
DataFrame
为
每个
记录
添加
"[“
字符
scala
、
apache-spark-sql
valueofColumnSelected][valueofColumnSelected] [valueofColumnSelected] 你知道怎样才能避免
记录
中的
浏览 15
提问于2020-07-10
得票数 0
2
回答
如何使用
spark
函数PySpark将
字符
串转换为列表
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在从
Dataframe
中获取列。该列的类型
为
string。数据以
字符
串的形式存储。它可以很容易地表示
为
一个列表。我希望输出
为
:{somevalues, id:1, name:'xyz'}, {somevalue}我如何使用
Spark
的API然而,在这种方法中,它需要对每条
记录
进行迭代。 另外,我想使用mapPartition;这就是为什么我需要将
字符
串列
浏览 3
提问于2018-03-08
得票数 1
2
回答
1.5.1使用SQL createDataFrame的
apache-spark
、
apache-spark-sql
、
spark-streaming
在流context中,我得到了如下所示的SQLContext
记录
是一个JavaRDD,
每个
记录
都有以
浏览 8
提问于2015-11-26
得票数 1
1
回答
如何在多个节点之间划分
Spark
Dataframe
,
每个
节点都有唯一的密钥
python
、
scala
、
apache-spark
我是
Spark
Dataframe
的新手。我有一个很大的
Dataframe
,在
Spark
集群中有一个键列,有4个节点。对于
每个
键,我在
Dataframe
中有几条
记录
;因此,只要内存有容量,我希望在
每个
节点中都有具有相同键的
记录
。如果节点内存已满,则将剩余数据移至另一节点。 你能指导我怎么做吗?我曾经研究过用partionBy编写pair RDD上刚刚使用的
Spark
自定义分区。它将
每个
唯一组合的数据
浏览 17
提问于2021-09-16
得票数 0
1
回答
Spark
- JSON
字符
串空数组显示
为
字符
串
json
、
scala
、
apache-spark
、
dataframe
、
hive
我正在尝试使用
spark
-shell和Scala将一些JSON文件的数据加载到HIVE。import org.apache.
spark
.SparkConf val conf = new SparkConf(如果任何给定的文件都有一条具有有效值的
字符
串数组字段的
记录
,那么所产生的数据帧对于所述字段具有正确的数据类型(即
字符
串数组),但是如果给定json文件中的所有
记录
在
字符</em
浏览 3
提问于2018-05-21
得票数 0
1
回答
资格+ Row_number语句的
SPARK
等效
sql
、
apache-spark
、
apache-spark-sql
、
window-functions
、
row-number
例如:
每个
月
记录
都有一个名为"statement_date我希望我的最终结果是一个新的
Spark
,其中包含3个最近的
记录
(由statement_date降序确定),
每个
记录
为
100个唯一的account_numbers,因此总
浏览 2
提问于2015-07-21
得票数 9
回答已采纳
1
回答
创建一个空的数据帧
scala
、
apache-spark
因为我是新手,所以我有一个简单的疑问我不知道这是不是正确的方法 varnewdf:
DataFrame
= null; newdf=
spark
.sql("SELECT f
浏览 1
提问于2020-01-20
得票数 1
2
回答
如何从
dataframe
获取1000个
记录
并使用PySpark写入文件?
python-3.x
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我有100,000+的数据
记录
。我希望动态创建一个文件,并将
每个
文件的1000条
记录
推送。有人能帮我解决这个问题吗?谢谢。
浏览 2
提问于2020-04-24
得票数 1
回答已采纳
2
回答
创建数据集时
Spark
无法反序列化
记录
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
val events:
DataFrame
= cdcFs.getStream() .withColumn("event", lit("I")) .withColumn("source但是,对于某个批处理,
记录
无法反序列化。
浏览 88
提问于2018-12-17
得票数 1
1
回答
根据CSV
记录
过滤
Spark
数据帧中的部分数据
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
csv文件中的字数不会超过50k条
记录
。***Keywords*** new baby
浏览 2
提问于2019-05-31
得票数 0
1
回答
使用Apache
Spark
和AWS从每日CSV文件生成月度数据
amazon-web-services
、
apache-spark
、
amazon-athena
、
aws-glue
我想按月连接文件,这样
每个
月的文件都有5列*天数,因此1月份将有155个名称为Day1-Col1,Day1-Col2...第31天-Col5。 这是我可以用Apache
Spark
做的事情吗?我选择
Spark
是因为我想将数据放入AWS Athena数据集中,而AWS Glue似乎可以通过
Spark
SQL查询来实现这一点。
浏览 18
提问于2019-09-17
得票数 0
回答已采纳
1
回答
通过HTTP将
Spark
数据作为JSON主体发送的最佳方法
apache-spark
、
solr
、
apache-spark-sql
、
http-post
我有一个
Spark
dataframe
,需要作为HTTP POST请求体发送。存储系统
为
Apache Solr。我们正在通过读取
Spark
dataframe
集合来创建Solr。此外,
dataframe
可能有数百万条
记录
,所以首选的方式是通过batches通过HTTP发送它们。 下面是我能想到的两种方法。我们可以使用foreach/foreachPartition操作的
Spark
dataframe
和调用HTTP POST,
浏览 2
提问于2019-05-24
得票数 1
2
回答
如何在
spark
- java项目中进行info/debug级别的
spark
Dataset printSchema日志
记录
java
、
sql
、
scala
、
apache-spark
、
apache-spark-sql
尝试将我的
spark
scala项目转换为
spark
-java项目。val
dataframe
1 = ....///read
dataframe
from text file. ...,但在调试/信息模式下
记录
printSchema都不
浏览 38
提问于2019-04-19
得票数 1
回答已采纳
2
回答
火花csv中的手柄逃逸\r\n
csv
、
apache-spark
、
pyspark
、
amazon-redshift
但是redshift只为ADDQUOTES提供了选项,但没有提供一种选择引号
字符
可以是什么的方法,ESCAPE.Their实现在以下所有
字符
之前
添加
转义
字符
()的情况也是如此。Linefeed:\n 正因为如此,卸载的数据在
每个
窗口换行符(如"\r\n“)之前都有转义
字符
浏览 0
提问于2019-01-23
得票数 1
1
回答
混合列中的空
字符
串在使用火花加载时使行无效
python
、
apache-spark
、
pyspark
、
inference
, "col2": 1.7}我使用(Py)星火装载如下:
spark
= SparkSession.builder.master("local[*]").getOrCreate()df.show() 产生的结果原因似乎是,第二列中唯一的
字符
浏览 1
提问于2020-03-18
得票数 0
回答已采纳
1
回答
无法SaveAsTextFile AttributeError:“列表”对象没有属性“saveAsTextFile”
pyspark-sql
但我不确定是否有一个问题会提供与我现在有一个新的错误消息相同的答案:#%%findspark.init('/home/packt/
spark
-2.1.0-bin-hadoop2.7')
spark
= SparkSession.builder.appName('ops').getOrCreate() df =
spark
浏览 1
提问于2018-08-06
得票数 1
3
回答
将每一行数据合并,返回数据帧到输出数据帧中
dataframe
、
scala
、
apache-spark
我需要 例如: 2 Y 56 pama我尝试使用foreach分区,并在内部使用foreach循环遍历每条
记录
error: Unable to find encoder for type
浏览 7
提问于2022-11-21
得票数 1
2
回答
如何在
Spark
2.3.0UDF中构造和持久化
每个
工作人员的引用对象?
scala
、
apache-spark
、
apache-spark-sql
、
databricks
、
spark-structured-streaming
在
Spark
2.3.0结构化流作业中,我需要将一列附加到从现有列的同一行的值派生的
DataFrame
中。在
每个
工作节点上构造和持久化该对象一次的最佳方法是什么,这样就可以对
每个
批处理中的每条
记录
重复引用该对象?我目前的尝试是将子类化,将昂贵的对象
添加
为惰性成员,并为这个子类提供一个备用
浏览 1
提问于2018-06-06
得票数 2
回答已采纳
2
回答
Scala星火数据中心保持领先零
scala
、
apache-spark
、
dataframe
、
zero
我正在阅读以下csv文件:0001,00000,foo0003,00150,toto|id|hit|name||1 |0 |foo ||3 |150|toto|我需要在
Dataframe
我尝试将"allowNumericLeadingZeros“选项设置
为
true,但它不起作用。我看到一些帖子说这是e
浏览 1
提问于2017-10-25
得票数 2
回答已采纳
1
回答
如何基于多个JSON文件创建
DataFrame
json
、
scala
、
apache-spark
、
spark-dataframe
现在我想要创建
DataFrame
,
每个
JSON文件都应该是这个
DataFrame
的行。我知道如何基于单个JSON
字符
串创建
DataFrame
,但不知道如何处理多个JSON
字符
串:val jsonStr = """{ "key": 111, "value": 54, stamp: "aaa"}""" v
浏览 1
提问于2018-02-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据有道之spark选择去重
大数据有道之spark筛选去重
遇见YI算法之初识Pyspark(二)
教程:Apache Spark SQL入门及实践指南!
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券