腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pandas
DataFrame
中
通过
一个
巨大
的
数据
集
“
向后
迭代
”
、
、
我知道,
迭代
在
Pandas
中
是不可接受
的
,有很多更有效
的
方法可以做到这一点,但为了更好地理解,让我们坚持
迭代
。我有
一个
巨大
的
NetFlow
数据
库(它包含时间戳、源ip、目标ip、协议、源和目标端口,以及更多属性)。我想根据前面的行创建自定义属性。基本上,我想‘
迭代
’整个
DataFrame
,对于每一行,我想获得源IP,然后
向后
‘
迭代</em
浏览 6
提问于2020-09-29
得票数 1
1
回答
在
azure ML
中
过滤TabularDataset
、
、
、
、
我
的
数据
集
是
巨大
的
。我正在使用Azure ML notebooks,并使用azureml.core读取日期
集
并转换为azureml.data.tabular_dataset.TabularDataset。无论如何,我会过滤tabularDataset
中
的
数据
,而不是转换为
pandas
数据
帧。我使用下面的代码来读取
数据
。由于
数据
量
巨大
,
pa
浏览 69
提问于2021-01-06
得票数 1
2
回答
如何在多个条件下
迭代
多个
数据
集
?
、
、
、
、
我试图使用包含多个条件
的
计算来
迭代
多个
数据
集
,但我会收到一条错误消息。我可以
迭代
多个列表,但它似乎不适用于
数据
格式。我已经将
一个
巨大
的
数据
集
(最初来自HDF5文件)划分为具有相同列
的
较小
数据
集
,但用于不同
的
构建类型。现在,我想遍历每个
数据
集
来进行相同
的
计算。计算也包括多个成文
浏览 1
提问于2019-08-05
得票数 0
回答已采纳
1
回答
当追加多个列时,如何解释
DataFrame
.assign(**kwargs)和dd[x]=y
在
Dask
中
的
性能差异?
、
、
、
在
将一些代码从
Pandas
迁移到Dask时,我发现
通过
使用多列调用
DataFrame
.assign()来修改Dask
数据
帧与使用多个
DataFrame
.__setitem__() (也称为
dataframe
[x]=y)调用来修改它之间存在
巨大
的
性能差异。使用导入对于定义如下
的
Dask
数据
帧: dd = dask.
浏览 3
提问于2020-04-16
得票数 0
2
回答
基于多个条件查找行(列值大于)
、
我
的
问题是,如果有任何危急情况,我需要识别患者
的
"ID“。XT或Crea增加)在他们
的
血液样本中观察到。理想情况下,病人"ID“应该归入三个组
中
的
一个
,这三个组可以称为Bad_30、Bad_40和Bad_40。如果患者没有进入“坏”组,那么他们就是非危重患者 See answer
浏览 12
提问于2019-08-23
得票数 0
回答已采纳
1
回答
Pandas
和
Pandas
被证明可以一起工作吗?
、
、
、
、
我面临许多问题,集成/添加
Pandas
现有代码
的
Pandas
代码。2)如果我选择使用
Pandas
和
pandas
在
同一代码
中
处理不同
的
数据
集
,当
通过
map调用
的
函数包含任何熊猫
数据
时,Pyspark转换(如map)似乎根本不起作用。我
在
Python
中
已有使用熊猫和numpy
的
代码,并且
在</em
浏览 2
提问于2017-12-26
得票数 6
1
回答
如果不存在列,则向
dataframe
追加空白行
、
我有几个
巨大
的
CSV文件(GB大小),我正在导入与
pandas
。这些CSV文件是由
数据
采集系统收集
的
数据
转储,我不需要其中
的
大部分,所以我使用usecols参数过滤掉相关
数据
。问题是,并不是所有CSV文件都有我需要
的
所有列(所使用
的
数据
系统
的
属性)。 问题是,如果该列不存在于文件
中
,而是
在
usecols中指定,则read_csv将抛出
一个
浏览 2
提问于2017-03-30
得票数 1
回答已采纳
1
回答
星火mapInPandas中有多少
迭代
器?
、
、
、
Databricks博客
中
引用
的
例子是:import
pandas
as pd 问题是,<e
浏览 14
提问于2021-02-06
得票数 2
回答已采纳
1
回答
如何将HDF5文件转换为Parquet文件?
、
、
、
、
我已经
通过
pandas
和
pandas
.HDFStore()将大约800 GB
的
巨大
数据
帧存储到HDF5
中
。import
pandas
as pddf = pd.
Dataframe
() # imagine the data being mungedinto a
dataframe
浏览 15
提问于2017-01-06
得票数 0
1
回答
如何将
pandas
数据
帧列值转换为可
迭代
的
集合?
、
、
我需要将
pandas
dataframe
列
的
逗号分隔
的
字符串值转换为可
迭代
的
集合,该集合可以是列表或数组,因此我们可以对获得
的
值
集
进行
迭代
和操作。你可以
通过
下面的示例
数据
来理解它: ____________________________________________________ 0 | val1,
浏览 34
提问于2019-03-18
得票数 0
4
回答
python -使用具有大csv(iterate和chunksize)
的
pandas
结构
、
、
、
我有
一个
很大
的
csv文件,大约600mb,有1100万行,我想创建像透视图、直方图、图表等统计
数据
。显然,我只是想正常地读取它:不起作用,所以我
在
一个
类似的帖子中找到了iterate和chunksize,所以我使用iterator=True, chunksize=1000)for chu
浏览 0
提问于2015-11-11
得票数 25
回答已采纳
2
回答
如何将
数据
帧导出为循环中
的
CSV
、
、
我正在分析
一个
10次
迭代
的
循环中
的
一些
数据
,每次
迭代
代表
一个
数据
集
。我已经设法
在
每次
迭代
的
末尾创建了
一个
包含
pandas
的
数据
框,现在我需要用不同
的
名称导出每个
数据
框。下面是代码
的
摘录。,data)) [stars,Rep_s] = (Frequen
浏览 10
提问于2021-01-21
得票数 0
回答已采纳
4
回答
将Dataset对象转换为
Pandas
DataFrame
的
最简单方法是什么?
、
、
、
、
Python 基于Sqlalchemy,并公开
一个
函数来返回名为all()
的
表
中
的
所有记录。all()返回
一个
可
迭代
数据
集
对象。users = db['user'].all() print(user['age'])
数据
集
对象转换为
Pandas
DataFrame
对象
浏览 0
提问于2018-04-23
得票数 0
回答已采纳
1
回答
如何向初始空
的
pandas
Dataframe
迭代
添加行?
、
我不得不
迭代
地向
pandas
DataFrame
添加行,但我发现这很难实现。另外,
在
性能方面,我不确定这是否是最好
的
方法。因此,我会时不时地从服务器获取
数据
,而这个来自服务器
的
新
数据
集
将成为我
的
pandas
DataFrame
中
的
新行。import
pandas
as pd df = pd.<e
浏览 10
提问于2019-11-09
得票数 0
回答已采纳
1
回答
要在
pandas
数据
框
中
浮动
的
对象
、
、
我有
一个
这样
的
数据
帧: df_encoded.head() Time Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 ..., 5, 4] 10 13 5 4 [4, 6] [54, 47, 97, 98] [19, 5, 2, 1, 0, 7, 12, 11, 8, 10] [8, 0] 所有列
中
的
数据
类型都是我可以轻松地将列
的
类型从OBJECT更改为int或float,因为它们不是其中
的
任何列
浏览 13
提问于2019-03-11
得票数 0
3
回答
pySpark将mapPartitions
的
结果转换为spark
DataFrame
、
、
我有
一个
作业需要在分区
的
spark
数据
帧上运行,该进程如下所示: rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是
pandas
.
dataframe
的
rdd, type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) =>
pandas
.cor
浏览 124
提问于2019-12-10
得票数 4
回答已采纳
1
回答
将熊猫按一栏或另一栏分类
、
、
、
id name rate1 1 name2 23 3 name3 30 [0, 1, 2] [name1, name2] [1, 2, 2] 1 [3]
浏览 0
提问于2018-04-19
得票数 2
回答已采纳
1
回答
在
类似Excel VLOOKUP
的
Python中使用部分字符串匹配进行合并
、
、
、
、
我有两个
数据
集
:Sales(针对公司名称)和Marketing(针对联系人和公司名称)。我希望将营销
数据
集中
的
公司名称与销售
数据
集中
的
公司名称进行匹配,即使(特别是)存在部分匹配。样本
数据
sales_df = pd.
DataFrame
({'CompanyName': ['EDF', 'EDF Business', 'L'Oreal France', '
浏览 32
提问于2021-08-23
得票数 0
1
回答
数据
集
工程Python
Pandas
、
、
我试图用
Pandas
包修改CSV
数据
集
。我有
一个
“时间”栏(第5栏),每天有51天和4K
的
记录。import
pandas
as pdimport random file_name我
的
想法是创建
一个
空
的
Pandas</em
浏览 1
提问于2022-02-02
得票数 -1
1
回答
是否可以附加到现有的羽毛格式文件?
、
、
我正在处理
一个
包含20条million+记录
的
非常庞大
的
数据
集
。我正试图将所有这些
数据
保存到羽毛格式
中
,以便更快地访问,并在继续进行分析时附加这些
数据
。有没有办法将熊猫
的
数据
添加到现有的羽毛格式文件
中
?
浏览 0
提问于2018-11-26
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Pandas中通过时间频率来汇总数据的三种常用方法
肝了3天,整理了90个Pandas案例
机器学习特征筛选:向后淘汰法原理与Python实现
Pandas中高效的“For循环”
数据加载、存储与文件格式
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券