腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
Python
(
Pandas
)
中
对
超大
数据
集
进行
分块
处理
,
同时
考虑
整个
数据
集
的
函数
应用
?
、
、
、
、
我在论坛上读到了许多关于类似主题
的
帖子。然而,我在这里问
的
,我相信这不是一个重复
的
问题。 我正在读取CSV格式
的
very large dataset (22 gb),有3.5亿行。基于that link提供
的
解决方案,我正在尝试以块为单位读取
数据
集
。 我当前
的
代码如下所示。import
pandas
as pd return chunk_of_d
浏览 36
提问于2020-12-04
得票数 1
回答已采纳
2
回答
数据
中
的
模式匹配,并创建满足
python
中
模式条件
的
csv
、
、
、
、
我正在
处理
一个
数据
集
,就像下面的附图所示。 我已经使用
pandas
在
Python
中导入了CSV格式
的
数据
集
。我正在寻找分离
整个
数据
与所有列
中
的
值,
如
"a;b;c","lp;kl;jj“在列PATR (即,其中有分号
的
数据
)到一个csv和其他值,
如
";”和"250
浏览 21
提问于2018-02-07
得票数 0
回答已采纳
2
回答
Guidewire :如
何在
guidewire版本6.0
中
实现分页
我一直在使用guidewire
应用
程序版本6.0。如
何在
应用
程序服务器
中
对
超大
的
数据
集
进行
分页? 示例:
考虑
实体支付。目前PCF是带回所有的付款预设在索赔
中
的
屏幕和结果
的
数量减少到3显示在UI
中
通过指定pagesize=3。现在我想通过分页在
数据
库
中
实现相同
的
概念,通过一个块
浏览 0
提问于2019-07-08
得票数 0
1
回答
如何立即将通常由sql读取
的
大
数据
块或分区到熊猫
中
?
、
、
、
高层理念: 我需要在一个大型
数据
集
(2.4亿行)上迭代并执行相当复杂
的
操作,这些
数据
集
已
分块
成SQL调用,每个调用返回大约2000万条记录。我可以成功地将每一块
数据
块拉进熊猫,但这些
数据
很难
处理
,在我
对
它们
进行
操作之前,真的需要进一步
的
分块
或分割。不幸
的
是,我不能将摄取调用划分得更小( S3调用是通过频谱针对AWS
的
,如果是这样
浏览 3
提问于2022-02-10
得票数 0
1
回答
在使用PySpark时,如
何在
Spark
中
实现
Python
数据
结构?
、
、
、
我目前正在自学Spark programming,并试图用PySpark重新编写一个现有的
Python
应用
程序。然而,我仍然
对
如
何在
PySpark中使用常规
Python
对象感到困惑。我了解Spark
中
的
分布式
数据
结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己
的
转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在PySp
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
在spark
数据
帧上实现pythonic统计
函数
、
、
、
我在spark
数据
帧中有非常大
的
数据
集
,它们分布在节点上。我可以使用spark库pyspark.sql.functions
进行
简单
的
统计,
如
mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试,我会使用像scipy这样
的
python
库,因为标准
的
apache pyspark库没有它们。() JBtest=stats.
浏览 30
提问于2020-09-13
得票数 0
1
回答
在Azure Kubernetes服务(AKS)
中
处理
关于Dask Kubernetes
的
大
数据
、
、
、
、
我想
对
我
的
笔记本硬盘
中
8gb
的
数据
集
(
如
csv文件)
进行
分析。我已经在AKS上设置了一个集群,其中有一个调度程序,3个工作程序,每个7 gb。任何建议,我应该在哪里存储这个
数据
<e
浏览 2
提问于2019-06-02
得票数 2
回答已采纳
2
回答
潘达斯能在星火上跑吗?
、
、
我们有一个Spark集群,用于
对
Python
中
的
各种金融
数据
集
进行
分析,这些
数据
集
高达数百to。它适用于那些对火花很满意的人,但最近我们已经有了一些
数据
科学家,他们更熟悉潘达,他们要求使用潘达斯而不是火花。Spark
的
主要优点是它是为分布式
处理
而设计
的
,并且能够
处理
更大
的
数据
集
,因此我们一直在
浏览 1
提问于2018-09-11
得票数 2
回答已采纳
1
回答
使用
pandas
.dataframe.query方法()用子集替换dataframe
的
适当方法是什么?
、
、
这个问题与我在此提出
的
问题非常相似: 我想了解如
何在
给定
的
dataframe中排除记录(IE
对
dataframe
进行
操作,而不是
对
其
进行
视图),
同时
还可以选择
对
结果
应用
其他操作。我很难理解
Python
在
处理
Pandas
DataFrame对象时是如何管理引用和值分配
的
。我正在使用
中
的
dataset,我想根据某
浏览 7
提问于2016-08-24
得票数 2
回答已采纳
1
回答
Tensorflow data.Dataset.map与存储器
我有一个图像
数据
集
,它太大了,无法存储在内存
中
。我计划做
的
是将路径
对
加载到图像和相应
的
标签作为我
的
数据
集
,然后在培训期间使用生成器
函数
将我
的
批
处理
中
的
路径转换为图像,然后将它们输入网络。data.Dataset.map()是这样做
的
好方法吗?它是返回只能在培训期间
应用
于当前批
的
映射
函数
浏览 7
提问于2022-06-30
得票数 -1
回答已采纳
5
回答
如何使用
Pandas
分析来分析大型
数据
集
?
、
、
、
数据
不是完全干净
的
,但在熊猫中使用是没有问题
的
。
pandas
库为EDA提供了许多非常有用
的
函数
。但是,当我
对
大
数据
进行
分析时,例如,当我使用10列
的
1亿条记录,从
数据
库表
中
读取它时,它不会完成,我
的
笔记本电脑内存不足,csv
中
的
数据
大小约为6 gb,我
的
RAM为14 GB,我
的</em
浏览 8
提问于2019-05-08
得票数 8
1
回答
RNN-LSTM作为
python
拼写检查器
的
数据
集
、
、
、
我有超过500万记录
的
数据
集
,其中有许多噪音特征(单词),所以我想做拼写纠正和缩写
处理
。当我观察到
数据
集
时,并不是所有的单词拼写都是错误
的
,在dataset.So
中
也有正确
的
拼写实例--i标记
整个
数据
集
,并使用拆分正确
的
单词和错误<
浏览 0
提问于2018-02-26
得票数 4
4
回答
在将
数据
传递到SSRS 2005之前,我可以对其
进行
预
处理
吗?
、
我们正在
考虑
迁移到Server 2005 Reporting。我们现有的许多报告都需要在呈现
数据
之前
对
其
进行
预
处理
。例如,我们
对
从存储过程返回GPS坐标(纬度和经度)
的
报告有一个查询,但是在将DataSet传递到我们
的
报告引擎(目前是水晶)之前,我们会调用一个Web来对坐标
进行
反向地理编码,并获得一个地址字符串。我们把它推到DataSet对象
中
。我读过一些关于
的
文章,但我不确定这是我想要
的<
浏览 0
提问于2009-09-17
得票数 3
回答已采纳
3
回答
连接一个
数据
集
和OneHotEncoder在
Pandas
中
的
结果
、
、
、
让我们
考虑
来自
的
房价
数据
集
。我将
整个
数据
集
存储在housing变量
中
: housing_cat_1hot.toarray().shape 我
的
目标是加入两个变量并将所有内容存储在一个
数据
集中.如
何在
ho
浏览 9
提问于2017-12-22
得票数 1
回答已采纳
1
回答
Pandas
中
HDF文件帧
中
列
的
附加
、
、
、
我正在
处理
一个CSV格式
的
大型
数据
集
。我正在尝试一列一列地
处理
数据
,然后将
数据
附加到HDF文件
中
的
框架
中
。所有这些都是用
Pandas
来完成
的
。我
的
动机是,虽然
整个
数据
集
比物理内存大得多,但列大小是可管理
的
。在稍后阶段,我将一个一个地将列加载回内存并
对
它们
进行
浏览 3
提问于2013-12-06
得票数 10
回答已采纳
1
回答
xarray:如何将scipy
函数
应用
于大型netcdf
数据
集
、
、
、
我有一个包含多个变量
的
大型netcdf文件。我需要沿着一个维度
对
一个变量
进行
离散积分,比如形状(80,100,300000)与维度(时间,深度,节点)
的
温度。因此,我尝试使用xarray将大
数据
集
分成块,然后尝试
应用
函数
scipy.integrate.simps,但失败了。/temperature.nc',chunks={'time':5, 'nodes':1000}) temp = ds.t
浏览 5
提问于2018-05-01
得票数 2
2
回答
如
何在
两个
Pandas
DataFrame对象上执行SQL样式不相交或设置差异?
、
我正在尝试使用
Pandas
来解决一个问题,因为一个愚蠢
的
DBA不对现在崩溃
的
数据
集
进行
备份,所以我试图找出两列之间
的
差异。由于我不想深入讨论
的
原因,我使用
的
是
Pandas
而不是
数据
库。我想做
的
是,
考虑
到:Dataset B = [C, D, E, F]Datas
浏览 1
提问于2013-01-19
得票数 7
回答已采纳
1
回答
如何解决Azure
数据
库
中
由于使用
Pandas
数据
集
而产生
的
OOM错误?
、
、
、
、
我正在使用Azure
数据
库来
处理
数据
。我从Azure blobs加载
数据
并将其转换为熊猫
数据
集
进行
进一步
处理
,但随后我遇到了一个错误: ConnectException错误:这通常是由OOM错误引起
的
,该错误导致关闭到
Python
的
连接。检查查询
的
内存使用情况 我做了一些搜索,发现这可能是使用熊猫
数据
浏览 3
提问于2022-08-11
得票数 1
1
回答
要部署
的
最终模型
的
预
处理
、
、
、
、
通常,对于ML工作流,我们导入
数据
(X和y),将X和y划分为train、valid和test,
对
train、valid和test
的
数据
进行
预
处理
(缩放、编码、计算nan值等),执行HP调优,在得到最佳HP模型后,将最终模型拟合到
整个
数据
集
(即X和y)。现在
的
问题是,X和y不是预
处理
的
,因为只有train、valid和test是预
处理
的
。因此,当在
浏览 0
提问于2021-11-29
得票数 1
回答已采纳
6
回答
如何向web服务传递大量
数据
、
、
、
我正在构建一个客户端-服务器(c#)
应用
程序,它使用web服务来同步
数据
。来回传递潜在
的
大量
数据
的
最佳方式是什么? 澄清:我想我是在问什么格式是传递
数据
的
最佳格式。JSON、SOAP、普通POST (我<em
浏览 2
提问于2009-06-24
得票数 4
回答已采纳
点击加载更多
相关
资讯
如何只用一行代码让 Pandas 加速四倍?
如何使用Pandas处理超过内存容量的大规模数据?
如何只用一行代码让Pandas加速四倍?
这些问题,你在处理数据时肯定遇到过
如何在 GPU 上加速数据科学
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券