腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如何
在python中使用生成器循环运行大型
拼图
文件
?
、
、
、
、
可以使用生成器打开
拼图
文件
并
逐行
迭代吗?这是为了避免将整个
拼图
文件
加载
到内存中。 该
文件
的内容是pandas DataFrame。
浏览 0
提问于2018-06-08
得票数 5
1
回答
如何
逐行
加载
拼图
文件
、
为了节省笔记本电脑上的空间,我通过dask保存了一个相当大的数据集作为
拼图
文件
。想知道是否有一种方法可以
逐行
读取镶木地板
文件
。 谢谢你的帮助。
浏览 12
提问于2019-03-28
得票数 0
回答已采纳
3
回答
如何
在Dask read_parquet函数中过滤不同分区
、
、
、
我在从parquet
文件
加载
dask数据帧时遇到了问题。基本上,我将
拼图
文件
存储到类别中:飞机名称(AIRCRAFT=name_aircraft)、序号(一个数字,用于标识飞机的每个任务: PROGRESSIVE=number)、年、月和日。当我尝试将拼接
文件
读取到dask数据框中时,我成功地过滤了年份窗口和
逐行
窗口,但仅选择了一些飞机失败。这里报告了我用来读取
拼图
文件
的函数 ddf = dd.read_parquet(path, engine=&qu
浏览 47
提问于2021-06-22
得票数 0
3
回答
如何
将本地
拼图
文件
加载
到GPDB中?
我做了一个GPDB集群(5.18.0),并希望将一些本地
拼图
文件
加载
到GPDB中。
如何
获得它?据我所知,gpload只支持普通
文件
和cvs
文件
加载
。 有没有什么办法,即使是被弃用的也可以做到呢?
浏览 44
提问于2019-05-17
得票数 1
1
回答
如何
使用通过Apache Drill inside Hive创建的Parquet
文件
、
、
、
Apache Drill有一个很好的功能,可以从许多传入的数据集中制作
拼图
文件
,但似乎没有太多关于
如何
在以后使用这些
拼图
文件
的信息-特别是在Hive中。有没有办法让Hive使用这些"1__0.parquet“等
文件
?也许可以创建一个表并从
拼图
文件
中
加载
数据,或者创建一个表并以某种方式将这些
拼图
文件
放在hdfs中,以便Hive读取它?
浏览 0
提问于2017-01-13
得票数 0
2
回答
spark写入拼花面板
文件
。
如何
指定行组大小?
、
、
、
我正在努力寻找
如何
在Spark API中指定
拼图
文件
写入器的行组大小。
浏览 5
提问于2017-10-25
得票数 1
1
回答
为什么在BigQuery表中
加载
后,地块
文件
中的数据与源数据不匹配
、
、
在我
加载
拼图
文件
从谷歌存储到BigQuery表。预览tap中的数据(在Bigquery中)与源数据不同。但是模式是正确的。 ?
浏览 7
提问于2019-05-17
得票数 1
2
回答
Spark
文件
格式转义\n正在
加载
CSV
、
、
我正在使用spark读取CSV管道分隔的数据
文件
。这是有资格引用的。一个文本块中有一个/n,它会导致读取损坏。我不明白的是,它是引用限定文本,所以它肯定应该跳过它!?行本身是CR+LN分隔的。我该
如何
解决这个问题呢?我可以在extract上清除它们,但对我来说似乎不是那么优雅。这就是我用来
加载
数据的代码val df = spark.read .schema
浏览 2
提问于2018-08-10
得票数 0
回答已采纳
1
回答
如何
从.Thrift
文件
的结构对象创建struct
、
、
、
我试过了val toDF = temp.toDF() 有什么方法可以消除这个错误吗??
浏览 48
提问于2018-08-14
得票数 0
3
回答
如何
从
文件
中读取多行
文件
并将其拆分为php中的数组
我有一个
文件
,里面有:vali 154667$array[0][0]=ali $array[1][
浏览 3
提问于2014-08-03
得票数 1
回答已采纳
5
回答
需要更少的拼花面板
文件
、
、
、
、
rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path) 然而,在每个分区下,有太多的
拼图
文件
,而且每个
文件
的大小都很小,这会使我下面的步骤
加载
所有的
拼图
文件
变得非常慢。有没有更好的方法,在每个分区下,创建更少的
拼图
文件
,并增加单个
拼图
文件
的大小?
浏览 6
提问于2016-08-31
得票数 2
1
回答
以
拼图
格式存储Spark数据帧时数据丢失
、
、
我有一个csv数据
文件
,可以
加载
到pyspark中:我在
拼图
中重新存储了我的数据帧:然后,我
加载
拼图
数据: df = spark.read.parquet为什么我丢失了
浏览 7
提问于2020-05-06
得票数 0
1
回答
AWS雅典娜-合并小
拼图
文件
或离开它们?
、
、
我有很多小
拼图
文件
是通过AWS胶水读取到雅典娜的。我知道小的
拼图
文件
(每个35k左右,因为日志输出它们的方式)并不理想,但是一旦它们被读取到数据目录中,它还重要吗?换句话说,在
加载
到Athena之前,我是否应该将所有小
拼图
文件
合并到更理想大小的
文件
中?
浏览 14
提问于2021-03-27
得票数 1
回答已采纳
1
回答
jupyter中的read_parquet抛出“无效的
拼图
文件
.损坏的页脚”错误
、
、
我在jupyter笔记本中
加载
了一个来自AWS S3的最新更新的
拼图
文件
。每次更新
拼图
文件
中的数据后,我都会得到一个“无效的
拼图
文件
。损坏的页脚”。错误。每次更新
拼图
文件
后,都会显示错误。pd.read_parquet(location, engine = 'pyarrow')我希望在不需要重启内核的情况下,获得包含更新后的
拼图
浏览 53
提问于2019-07-24
得票数 0
1
回答
Spark Structured Streaming写入到parquet会创建如此多的
文件
、
、
我使用结构化流传输从kafka
加载
消息,做一些聚集,然后写到parquet
文件
。问题是,仅为来自kafka的100条消息创建了如此多的
拼图
文件
(800个
文件
)。checkpointLocation", "c:\\bigdata\\checkpoints")使用spark
加载
其中一个
拼图
文件
时,显示为空 +-----
浏览 5
提问于2017-02-21
得票数 5
3
回答
Pandas :从
拼图
文件
中读取前n行?
、
、
我有一个
拼图
文件
,我想将
文件
中的第一个n行读取到pandas数据框中。或者,我可以读取完整的
拼图
文件
并过滤前n行,但这将需要更多的计算,这是我想要避免的。 有没有办法做到这一点?
浏览 0
提问于2018-12-31
得票数 27
回答已采纳
1
回答
如何
在
拼图
文件
上创建配置单元表
在
拼图
文件
上创建蜂窝表时遇到的问题。有没有人能帮我一下?我已经阅读了很多文章并遵循了指南,但无法在Hive Table中
加载
拼图
文件
。
浏览 8
提问于2017-12-30
得票数 2
1
回答
比较pandas在从
拼图
加载
数据框后的日期
、
我有以下代码,可以从一个
拼图
文件
加载
一个pandas数据帧。
拼图
文件
有一个名为the_date的列,我正在尝试创建一个按日期过滤的新数据帧。从
拼图
加载
数据帧后,是否需要进行任何类型的日期转换?会出什么问题呢?
浏览 18
提问于2021-07-14
得票数 0
回答已采纳
2
回答
将过大而无法装入内存的CSV
文件
保存到parquet
文件
中
、
、
我有一个CSV
文件
太大,无法放入内存。我想将其另存为
拼图
文件
,并使用现有工具在本地进行分析,但将来可以将其移动到Spark集群,并使用Spark进行分析。有没有办法在不将
文件
移动到Spark集群的情况下
逐行
执行此操作? 我正在寻找一个不涉及使用Spark的纯python解决方案。
浏览 4
提问于2018-01-26
得票数 1
1
回答
具有Snappy压缩功能的Parquet格式的红移复制命令
、
、
、
、
或者,我将
拼图
格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip。 目前有没有一种方法可以直接将数据从地块
文件
加载
到Redshift?
浏览 2
提问于2016-03-10
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
linux shell编程-逐行处理文本文件
JavaScript文件加载优化
Class文件加载过程
PyQt加载UI文件
如何将整个文件内容加载到富文本控件?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券