腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
动态
帧
显示
方法
不会
产生
任何
结果
、
、
当我检查Glue
Spark
动态
框架时,它会
显示
所有行的内容(使用.count())。但是,当对它执行.show()时,
不会
产生
任何
结果
。 .printSchema()运行得很好。已尝试在使用.show()时记录错误,但未记录
任何
错误或未打印
任何
内容。使用.toDF和show
方法
将DynamicFrame转换为数据
帧
。我认为文件有一些问题,试图缩小到某些列。我猜普通的
spark
数据
浏览 25
提问于2019-05-07
得票数 10
2
回答
在dataframe中注册临时表不工作
、
、
、
下面是我通过python在dataframe中使用sql的脚本:from pyspark.sqlheader='true', inferschema='true').load('file:///root/Downloads/data/flight201601short.csv') df.show(5)
显示
结果
如下
浏览 1
提问于2017-01-02
得票数 1
回答已采纳
2
回答
将该值重置为配置"
spark
.executor.instances“
我想在提交
spark
应用程序时使用
spark
的
动态
资源分配,但在
spark
-defaults.conf文件中,属性
spark
.executor.instances的值被设置为16。据我所知,如果我们想使用
动态
资源分配,我不应该设置
spark
.executor.instances。否则,即使启用了
动态
资源分配,它也会被属性
spark
.executor.instances覆盖。我不能编辑
spark
-defaults.co
浏览 319
提问于2020-07-22
得票数 1
回答已采纳
1
回答
Spark
数据
帧
缓存似乎
不会
对后续操作
产生
任何
影响
、
当我使用
Spark
DataFrame执行操作时。缓存DataFrame后,执行该操作所需的时间与第二次执行该操作所需的时间几乎相同。必须使用DAG重新计算数据
帧
,缓存无效或处于非活动状态。有人能解决我的疑惑吗? 非常感谢。
浏览 2
提问于2018-09-08
得票数 0
1
回答
如何在AWS胶水作业中添加带有源名称的新列?
、
、
args = getResolvedOptions(sys.argv, ['JOB_NAME']) glueContext = GlueContext(sc)job = Job(glueContext) datasource0 = glueContext.create_dynamic_frame.from_catalog
浏览 10
提问于2019-08-16
得票数 0
1
回答
使用
spark
将数据插入配置单元表的问题
、
、
、
目前我正在开发
Spark
版本2.1.0,作为我的数据摄取工作的一部分,我必须使用ingest
方法
将数据摄取到hive表中。但是
Spark
2.1版本有一个bug,当插入数据到hive表中时,insertinto
方法
不会
保持列顺序。我已经尝试在append模式下使用saveAsTable
方法
,但它
不会
起作用,因为在数据摄取之前,我首先使用正确的数据类型手动创建表。我尝试从现有的hive表中创建
spark
数据
帧
,并尝试从其中获取列序列,并
浏览 15
提问于2019-02-26
得票数 0
1
回答
在SparkR中将字符串转换为时间戳时对毫秒的处理
、
、
、
、
在读取文件时推断模式,这会
产生
数据类型为chr。我知道它可以在没有毫秒的情况下工作,
产生
适当的数据类型和列。但是,我也需要毫秒,因此希望在现有的
Spark
数据
帧
中将数据类型更改为timestamp。以下是我测试过的
方法
:对我来说,它正确地转换了数据类型,但新列不包
浏览 2
提问于2017-04-11
得票数 2
1
回答
无法读取UTF-16文件
、
、
、
、
我正在尝试读取
Spark
数据
帧
中UTF-16编码的文件。然而,当我
显示
我的数据
帧
的
结果
时,我在我的
结果
集中得到了不需要的特殊字符。我尝试了以下
方法
-使用UTF-16BE: df =
spark
.read.format('text').option("encoding", 'UTF-16BE').option("charset",header', 'fal
浏览 49
提问于2021-03-24
得票数 1
回答已采纳
2
回答
在PySpark中将标识符保留在exceptAll中
、
我很好奇是否有一种简单的
方法
可以在PySpark的exceptALL命令中保留标识ID。例如,假设我有两个数据
帧
(DF1,DF2),它们都有一个ID列和另一个列“A”。
浏览 48
提问于2020-01-16
得票数 1
1
回答
spark
vs pandas dataframe (具有大列) jupyter笔记本中的head(n)
、
、
、
、
为了获得简短的数据摘要,人们将数据加载到数据框中,并使用head()
方法
显示
数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。
Spark
(scala)很适合处理大量数据,但是它的head()
方法
不能在水平滚动的notebook中
显示
列标题。熊猫数据
帧
头 我知道你可以通过使用.columns在scala dataframe中获得列标题,但是打印它
不会</em
浏览 3
提问于2018-06-13
得票数 2
1
回答
在另一个
spark
PySpark查询中使用列
、
我遇到这样一种情况:我试图查询一个表,并使用该查询的
结果
(dataframe)作为另一个查询的IN子句。从第一个查询中,我得到了下面的数据
帧
: +-----------------++-----------------+|10000000000007|| 10000000000010|+-----------------+ 现在,我想使用该数据
帧
的值
动态</em
浏览 7
提问于2020-01-08
得票数 1
回答已采纳
2
回答
Spark
: DataFrame缓存/持久化是从一个传输到另一个吗?
、
、
假设我有这样的代码(
Spark
1.6.2): val df = sqlContext.read.parquet(url)
浏览 25
提问于2017-01-24
得票数 1
回答已采纳
2
回答
在设定频率后刷新缓存的
Spark
数据
帧
、
、
我正在开发一个SparkStreaming解决方案,在这个解决方案中,一个配置单元表被缓存为一个数据
帧
,然后流事件将与缓存的数据
帧
结合起来,以
产生
结果
。有没有
任何
方法
,比如说TTL或
任何
其他围绕缓存数据
帧
的机制,其中数据以特定的时间间隔自动刷新更新的Hive表记录。
浏览 0
提问于2018-07-04
得票数 0
3
回答
大数据
帧
pyspark的show()子集
、
、
、
、
我有一个很大的pyspark数据
帧
,我正在对它执行一些转换,并与其他数据
帧
连接。我想调查转换和连接是否成功,以及数据
帧
是否看起来像是预期的,但我如何
显示
数据
帧
的一小部分。 我试过很多东西。我可以旋转一个非常大的集群,但是有没有一种
方法
可以快速地只获取数据
帧
的一小部分?
浏览 0
提问于2019-11-20
得票数 2
1
回答
Scala左连接返回完全连接的
结果
、
、
、
我尝试在
spark
shell中连接两个数据
帧
。其中一个数据
帧
有15000条记录,另一个数据
帧
有14000行。我尝试了这些数据
帧
的左外部连接和内部连接,但
结果
是有29000行的计数。这是怎么回事呢?, $"df1.BatchKey" === $"df2.BatchKey", "inner").select(($"df1.*"),col("df2.BatchKey").as("B2
浏览 6
提问于2019-12-13
得票数 0
1
回答
Spark
Scala:使用$的符号中的功能差异?
、
、
对我来说,
结果
看起来是一样的,但很好奇是否有未知的未知。$符号表示什么/它是如何读取的?
浏览 126
提问于2021-01-13
得票数 2
回答已采纳
1
回答
spark
.default.parallelism等价于火花数据仓库
Dataframe有
spark
.sql.shuffle.partitions来控制重装分区(如果我正确理解的话,可以进行广泛的转换),而"
spark
.default.parallelism“
不会
产生
任何
影响这是因为
Spark
模块包含以下默认配置:
spark
.sql.shuffle.partitions设置为200。下面的文章指出,
spark
.default.parallelism不适用于Dataframe。当用户不显式设置时,
spa
浏览 6
提问于2019-11-18
得票数 2
回答已采纳
14
回答
如何在
Spark
Dataframe中
显示
完整的列内容?
、
、
、
我正在使用
spark
-csv将数据加载到DataFrame中。我想做一个简单的查询并
显示
内容:|2015-11-16 07:21:...||2015-11-16 07:21:...|如何
显示
浏览 2594
提问于2015-11-17
得票数 267
回答已采纳
1
回答
Spark
SQL分区感知查询hive表
、
、
、
、
给定由some_field (整型)分区的Hive表,数据存储为Avro文件,我想使用
Spark
SQL查询表的方式,返回的数据
帧
必须已经由some_field分区(用于分区)。查询看起来就像默认情况下,
Spark
不会
这样做,返回的data_frame.rdd.partitioner为None。获取
结果
的一种
方法
是在查询后显式重新分区,但可能还有更好的解决方案。谢谢。
浏览 0
提问于2017-11-09
得票数 3
2
回答
PySpark将IntegerTypes转换为ByteType进行优化
、
、
、
我通过拼图文件将大量数据读入到数据
帧
中。我注意到大量的列都有1,0,-1作为值,因此可以从Int类型转换为Byte类型,以节省内存。我是
Spark
的新手,可能不完全理解ByteType的内部原理,那么我应该如何开始将这些列设置为
Spark
的?
浏览 3
提问于2018-02-01
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用AI让静图变动图:CVPR热文提出动态纹理合成新方法
iOS性能优化
Meta研究提高立体、单目深度估计的时间一致性来改善深度重建
CVPR 2021发表视频慢动作的新sota,还发了160FPS的数据集
论文简述|FlowFusion:基于光流的动态稠密RGB-D SLAM
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券