腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3774)
视频
沙龙
2
回答
基于
唯一
值
将
数据
帧
子集成
小
数据
帧
子集
并
同时
写入
csv
文件
的
有效
方法
、
、
、
、
根据
唯一
/过滤条件
将
大型
数据
帧
df
子集
划分为较小
子集
的
最
有效
方法
是什么?15个独特
的
国家,我想根据这15个独特
的
国家
将
数据
集
子集
为15个
数据
帧
,并在15个
csv
输出
文件
中
同时
写出15个
数据
帧
。所需
的</e
浏览 38
提问于2020-09-28
得票数 4
回答已采纳
2
回答
如何编写一个for循环,
将
多个
csv
文件
读入R,
并
对
数据
进行
子集
,从而为ggplot创建干净
的
数据
帧
?
、
、
、
、
现在,我只想对csvs进行
子集
,然后根据
子集
数据
创建一个
数据
帧
。filenames <- gsub(
浏览 0
提问于2019-02-26
得票数 0
1
回答
如何根据字段
将
数据
从
CSV
加载到单独
的
Hadoop HDFS目录
、
我有一个
CSV
数据
,需要根据某个字段(年份)将其加载到HDFS目录中。我计划使用Java。我已经考虑过使用BufferedReader,但是我在实现它时遇到了问题。这是完成这项任务
的
最佳选择,还是有更好
的
方法
?
浏览 34
提问于2021-11-03
得票数 0
回答已采纳
2
回答
将
多个pandas
数据
帧
附加到单个
csv
,但仅在第一次附加时包含报头
、
、
、
、
我需要创建一个.
csv
文件
,并将多个
数据
帧
的
子集
附加到其中。 所有
数据
帧
的
结构都是相同
的
,但是我需要创建带有头部
的
输出
数据
集,然后追加所有没有头部
的
后续
数据
帧
。我知道我可以只使用第一个
数据
帧
的
头创建输出
文件
,然后执行一个不带头
的
append
浏览 0
提问于2015-11-18
得票数 1
3
回答
Pandas处理大型
CSV
数据
、
、
我正在使用pandas处理至少8 8GB大小
的
大型
数据
集。在我
的
理解中,分块整个
文件
将
创建许多不同
的
数据
帧
。因此,使用我现有的例程,这只删除特定
数据
帧
上
的
重复
值
,而不是整个
文件
上
的
重复
值
。 我需要删除
基于
“
唯
浏览 33
提问于2020-03-11
得票数 3
回答已采纳
1
回答
pyspark在输出中
写入
许多较小
的
文件
、
、
我正在使用pyspark处理一些
数据
,并将输出
写入
S3。我已经在athena中创建了一个表,它将用于查询此
数据
。
数据
采用json字符串
的
形式(每行一个),spark代码读取
文件
,根据特定字段对其进行分区,
并
写入
S3。 对于一个1.1 GB
的
文件
,我看到spark正在
写入
36个
文件
,每个
文件
大小大约为5 MB。在阅读athena文档时,我发现最佳
文件</em
浏览 5
提问于2019-12-16
得票数 2
1
回答
将
大型
数据
框导出到可供Power BI使用
的
单个
文件
的
最佳
方法
、
、
我正在Azure Databricks中处理大量输入
文件
。我
的
最终
数据
帧
大约有9800万行。 我需要将其从Databricks导出,以便我可以将其导入Power BI进行报告。Power BI目前似乎没有一个连接器可以解释分区
的
性质,如果我只是简单地
将
数据
帧
写入
CSV
。使用合并或转换为pandas
数据
帧
并
导出到
CSV
的
速度非常慢
浏览 10
提问于2019-04-29
得票数 0
1
回答
Parquet和Spark中
的
分区策略
、
我有一个工作,读取
csv
文件
,将其转换为
数据
帧
,并在Parquet中
写入
。我正在使用附加模式,
同时
写入
数据
在Parquet。使用这种
方法
,在每次编写中都会生成一个单独
的
Parquet
文件
。我
的
问题是: 1)如果每次我
将
数据
写入
Parquet模式时,会追加一个新
文件
,它会不会影响读取性能(因为
数据</
浏览 1
提问于2018-09-12
得票数 3
2
回答
熊猫使用for循环创建多个
数据
帧
、
、
我正在寻找高效
的
Python代码来:例如,在我
的
代码中:
csv
_files = glob.glob(EU_path +(data) list_EU_data是10个欧洲国家产品销售
的
10个
csv
文件
的
列表。在这里,我希望在预处理
数据
帧
的
同时
创建多个
浏览 4
提问于2020-11-16
得票数 1
回答已采纳
1
回答
Python,pandas连接多个
数据
帧
、
、
、
、
我有一个
csv
文件
列表,我使用pd.read_
csv
()将其加载为
数据
帧
。 我目前正在尝试遍历
csv
列表,
并
使用pd.concat()
方法
并将轴参数设置为1,以便按列
将
所有
数据
帧
添加到一起。它如我所希望
的
那样工作,但是我遇到了这个问题,因为当我连接它们时,所有的
数据
框都有相同
的
列名,例如,我得到了10列,所有列
的
关键字都是&qu
浏览 3
提问于2017-05-17
得票数 0
2
回答
Databricks:转换
数据
框
并
导出为xls / xlsx
、
对于Databricks:转换
数据
帧
并
导出到xls / xlsx
并
保存到blob存储中是可能
的
吗?使用Python
浏览 41
提问于2019-09-30
得票数 0
1
回答
Pandas样式
的
数据
帧
-按分类列显示
的
颜色条
、
、
df = pd.concat([grps, df], axis = 1) df.columns = ['group', 1, 2, 3]# style the dataframe. style_df = (df.
浏览 7
提问于2020-02-23
得票数 0
2
回答
使用python和oracle db在
文件
中获取、隔离和
写入
相应
数据
的
最快
方法
。
、
、
、
、
我一直在尝试从db中获取大量
数据
,只是为了对其进行解析和分离,然后使用python将其
写入
csv
文件
。
数据
相当庞大,所以我决定将其转储到一个临时
文件
中,在那里我会将其分离,并从中创建多个
csv
文件
(我认为处理如此多
的
数据
对python来说将是非常耗费精力
的
,这就是为什么要进行转储)。现在,只有
写入
这个临时
文件
的
数据
超过了时间限制
浏览 0
提问于2020-01-07
得票数 0
0
回答
过滤`input_file_name`上
的
火花路径
、
有没有一种
有效
的
方法
,可以在不读取所有
文件
内容
的
情况下,
将
输入
文件
过滤到
基于
input_file_name
的
spark
数据
帧
中?我在S3上有一条路径,里面有许多我正在通过spark.read.
csv
("path/to/csvs/*")阅读
的
大型压缩csvs (xx.
csv
.gz)。我想根据
浏览 2
提问于2017-06-13
得票数 0
2
回答
如何从excel导入
数据
后在python中永久保存
、
我有一个
数据
帧
,看起来像这样:Out[2]: DateGurunanak Jayanti这是从excel
文件
导入
的
我想知道是否有一种
方法
,一旦它被导入到
数据
帧
中,我可以以某种方式永久地保存
浏览 19
提问于2020-05-26
得票数 0
回答已采纳
1
回答
在Python中(或者一般在CS中)是循环
的
还是分层
的
类似字典
的
数据
结构?
、
、
、
、
需要注意
的
是,执行DataFrame groupby、
数据
透视表、堆栈/非堆栈,甚至逻辑查找,
并
选择
数据
帧
的
一个
子集
会减慢速度(因为查看整个注册表需要很长时间。根据可用
的
列
值
重新排列或设置
数据
帧
的
成本需要一段时间-我正在尝试找出是否有好
的
数据
结构或算法可以解决这个问题。我也在试着看看Pandas是否有一种非常
有效
<em
浏览 2
提问于2020-01-23
得票数 1
1
回答
分割
数据
并
编写多个面图
、
、
、
我有一个
数据
,它有关于12个局部地区= LA
的
信息。我可以
将
这个
子集
的
结果
写入
全局环境(需要吗?)如何
将
x或y
的
内容绘制成与
写入
浏览 1
提问于2018-04-26
得票数 0
回答已采纳
1
回答
减法R
数据
帧
我正在删除一些
数据
帧
,
并
确信有一个更好
的
方法
。 基本上,我有两个
数据
帧
。第一个是实际
数据
。第二个有一些元
数据
,更重要
的
是,有一个标志来说明行是否在我感兴趣
的
子集
中。我想要做
的
就是取出
子集
并
编写一个
文件
。20+最小
值
仅用于
子集
并
写入
数
浏览 0
提问于2015-03-16
得票数 0
2
回答
合并和聚合多个data.frames
、
我有一个.
csv
文件
集合,每个
文件
都包含相同数量
的
行和列。每个
文件
包含一些以A、B、C为特征
的
测试对象
的
观察
值
(列'value'),
并
采用类似于以下形式:1 1 1 0.51 2 1 0.1 1 2 2 0.2假设
将
每个
文件
读入到单独
的
数据
帧
中。
将
这些
数
浏览 4
提问于2014-03-03
得票数 1
2
回答
Spark选项: inferSchema vs header = true
、
、
、
、
对
的
引用 我认为我需要.options("inferSchema" , "true")和.option("header", "true")来打印我
的
标题,但显然我仍然可以打印我
的
csv
的
标题。它需要额外传递一次
数据
,默认情况下为false“
的
含义。
浏览 0
提问于2019-07-08
得票数 13
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
划重点!12种高效Numpy&Pandas使用技巧!
10招!看骨灰级Pythoner如何玩转Python
如何只用一行代码让Pandas加速四倍?
「操作演示」CANOpen通讯使用指南
pandas系列学习(五):数据连接
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券