腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在python中将mongoDB objectID
转换
为字符串
python
、
pandas
、
pymongo
我正在从mongoDB读取
数据
到
pandas
数据
帧
..db = client.test_insertdatabase这将是mongoDB的dataset2集
合
中的所有文档然后我将它
转换
为
pandas
数据
浏览 1
提问于2015-12-08
得票数 2
1
回答
apache箭头-
并行
处理的充分性
pandas
、
apache-spark
、
apache-arrow
我有一个庞大的
数据
集,并且正在使用Apache进行
数据
处理。 使用Apache,我们可以将与火花兼容的
数据
帧
转换
为与
Pandas
兼容的
数据
帧
,并在其上运行操作。通过
转换
数据
帧
,它是实现了在星火中看到的
并行
处理的性能,还是它的行为像潘达斯一样?
浏览 5
提问于2020-07-03
得票数 4
回答已采纳
1
回答
Pyspark是spark.lapply的替代品?
python
、
apache-spark
、
pyspark
、
sparkr
我有一个计算密集型的python函数,在for循环中反复调用(每次迭代都是独立的,即令人尴尬的
并行
)。我正在寻找spark.lapply (来自SparkR)的一种功能,以利用星火集群。
浏览 1
提问于2019-08-05
得票数 0
3
回答
Pandas
合
并行
/
数据
帧
转换
python
、
pandas
、
dataframe
229.1 229.05 229.058 229.1 229.15 229 9 229.05 229.05 229 我如何才能将其
转换
为
浏览 25
提问于2020-07-11
得票数 3
回答已采纳
2
回答
读取大型csv作为
Pandas
DataFrame的速度更快
python
、
windows
、
pandas
、
dataframe
、
cudf
我有一个csv,我正在读到一个熊猫的DataFrame,但它需要大约35分钟阅读。csv大约为120 GB。我发现了一个名为cudf的模块,它允许图形处理器DataFrame,但它只适用于Linux。Windows也有类似的功能吗?combined_array = pd.DataFrame() low_memory = False, error_bad_lines = False, chunksi
浏览 3
提问于2019-11-13
得票数 0
1
回答
在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是,与常规的Python/
Pandas
相比,将pySpark作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?
浏览 0
提问于2016-07-27
得票数 1
1
回答
包含json格式列的Dask
数据
帧
python
、
pandas
、
dask
我有一个包含json格式列的dask dataframe,我希望将该列解析为dataframe格式。{"Name": {"id": 1000, "address": "ABC", ....}},,,id address ...2000 DEF... ... 我想我们可以通过read_json将json文件读入dask dataframe,但是我
浏览 5
提问于2020-05-14
得票数 2
1
回答
选择子集后将其
转换
为
pandas
时,Dask dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
现在我正试着把它
转换
成
pandas
df。这只需要几秒的时间来执行,并使用大约1.5 GB的内存。现在,我试图通过计算将其
转换
为
pandas
数据
帧
,但在使用170 GB后,它会花费大量时间并耗尽内存。
浏览 1
提问于2021-09-23
得票数 0
1
回答
使用Apply有条件地为Dask Dataframe赋值
dask
我正在尝试迭代一个Dask dataframe,并将它的一个列中的值与另一个同名的Dask dataframe中的列进行比较。如果列匹配,我想更新的值是目标Dask dataframe。下面的代码运行了,但是值没有更新为我期望的“1”,也没有更新到任何地方。我是Dask的新手,我怀疑我错过了一些关键的步骤,或者不理解框架。 def populateSymptomsDDF(row): if vac in symptoms_ddf.columns: symptoms_ddf[
浏览 19
提问于2020-04-08
得票数 0
3
回答
将DataFrame从
pandas
转换
为dask
python
、
pandas
、
dask
、
partition
、
chunks
所以我试着写这样的代码:import
pandas
as pd df = dd.from_
pandas
浏览 4
提问于2020-10-22
得票数 1
1
回答
MongoDB聚合管道vs
Pandas
聚合
pandas
、
mongodb
我们目前使用了大量的MongoDB聚合管道来做一些
数据
处理。然而,我们经常遇到一些性能问题。我正在考虑将
数据
从MongoDB读取到
Pandas
数据
帧
中,并使用
Pandas
数据
帧
聚合来处理
数据
。另外,MongoDB聚合管道是否利用了内部的某种
并行
性?
浏览 0
提问于2020-05-15
得票数 2
1
回答
数据
帧
到JSON
pyspark
如何在pyspark中处理dataframe并获得json格式的输出:empid empname in out1 A 1 1
浏览 4
提问于2018-03-18
得票数 0
2
回答
如何修复过滤
数据
帧
时出现的内存错误?
python
、
pandas
在对
数据
帧
进行简单过滤时,我得到了一个内存错误。在我的笔记本电脑重新安装windows10之前,我从来没有遇到过这个问题。 我在中尝试了一种变通方法,并更改了页面文件大小。
浏览 0
提问于2020-06-22
得票数 0
1
回答
如何在多个dataframe lambda函数上实现dask映射分区?
python
、
pandas
、
dataframe
、
multiprocessing
、
dask
我已经使用
pandas
实现了两个
数据
帧
之间的模糊字符串匹配算法。我的问题是如何将其
转换
为使用多核的dask操作?我的程序在纯python上运行大约3-4天,我想
并行
操作以优化时间成本。phase','new']然后,我必须根据每个字符串关联的数值将
数据
帧
emb细分为两个
数
浏览 3
提问于2018-05-19
得票数 0
1
回答
Pandarellel没有进展并处于死锁状态
python
、
pandas
、
pandarallel
我正在使用具有初始化4核的
并行
包在
pandas
数据
帧
上运行应用函数。但不幸的是,该过程甚至没有处理一条记录。在没有Pandarallel
并行
功能的情况下,需要3分钟才能完成该过程。在1000个记录的
数据
帧
上运行实验。实际上我有两百万个
数据
集,这就是我研究
并行
的地方。
数据
集的大小为6 MB,RAM为16 GB。这种僵局的问题可能是什么?
浏览 1
提问于2020-04-20
得票数 0
1
回答
从表示多级字典的字符串创建Dask Dataframes
python
、
pandas
、
dictionary
、
dask
我有一个庞大的
数据
集,我正在尝试从字符串列表中创建dask
数据
帧
A | B | Cimport ast df_.at[i,'B'] = ast.literal_eval(df_.'A']=idat=pd.conca
浏览 1
提问于2019-03-08
得票数 0
1
回答
如何将spark sql
数据
帧
摘要写入excel文件
apache-spark
、
pyspark
、
spark-dataframe
我有一个非常大的
数据
帧
,有8,000列和50000行。我想把它的统计信息写到excel文件中。我认为我们可以使用describe()方法。而是如何以良好的格式写出优秀的作品。谢谢
浏览 4
提问于2017-04-22
得票数 3
回答已采纳
1
回答
Spark中的用户定义函数(UDF)是否在集群工作节点上
并行
运行?
apache-spark
、
user-defined-functions
1, 20).registerTempTable("test") %sql select id, squaredWithPython(id) as id_squared from test 那么,如果
数据
分布在工作节点的内存上
浏览 33
提问于2019-10-10
得票数 0
回答已采纳
1
回答
在Dask中使用尚未实现的
Pandas
函数
python
、
pandas
、
dask
、
dask-distributed
、
dask-delayed
我相信在使用Dask
数据
帧
时,我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的
Pandas
函数的建议,但我似乎看错了地方。例如,我想使用
Pandas
函数'ewm‘。作为一种变通方法,我将Dask
数据
帧
转换
为
Pandas
数据
帧
,在
Pandas
数据
帧
上运行ewm,然后将它们
转换
回Dask,以便以后进行更多内存密集型操作。效率
浏览 10
提问于2019-06-02
得票数 1
回答已采纳
1
回答
将Google Analytics中的JSON
数据
保存到关系
数据
库的最佳方法
python
、
json
、
pandas
、
google-analytics-api
、
rdbms
我正在寻找
并行
加载Google Analytics
数据
到关系
数据
库的最有效方法,这些
数据
以嵌套对象结构表示在JSON文件中,以便以后收集和分析这些统计
数据
。我发现了可以将嵌套
数据
扁平化为平面结构的
pandas
.io.json.json_normalize,还有一个将json
转换
为
数据
帧
(如所述)的pyspark解决方案,但不确定是否存在性能问题。你能描述一下从Google Analytics API加载
数据<
浏览 0
提问于2019-12-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
如何只用一行代码让 Pandas 加速四倍?
如何只用一行代码让Pandas加速四倍?
如何在 GPU 上加速数据科学
Python数据预处理:使用Dask和Numba并行化加速
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券