Python / Pandas:如何在dataframe中合并行

文章/答案/技术大牛

发布

2回答

如何修复过滤数据帧时出现的内存错误？

python、pandas

我在中尝试了一种变通方法，并更改了页面文件大小。此外，我还用64位python重新安装了我的32位python。我的csv文件不是很大，大约600 MB，我的RAM是16 GB。

浏览 0提问于2020-06-22得票数 0

1回答

dask.delayed对象的分布与计算

dask、dask-distributed、dask-delayed

dask.delayed对象是否通过dask在集群上分发？

浏览 1提问于2018-06-30得票数 1

1回答

分类后编号

data-science-model

我有表格数据。任意数量的行可以形成一个特定的类。数据包含每个类的多个实例。我希望每个类实例都包含自己的编号。这个任务的名称是什么，以便我可以进一步搜索有关这个主题的信息？据我所知，这不是分类，也不是聚类。这是一种类似的检测。

浏览 0提问于2022-12-15得票数 0

2回答

读取大型csv作为Pandas DataFrame的速度更快

python、windows、pandas、dataframe、cudf

我有一个csv，我正在读到一个熊猫的DataFrame，但它需要大约35分钟阅读。csv大约为120 GB。我发现了一个名为cudf的模块，它允许图形处理器DataFrame，但它只适用于Linux。chunk_list = []for chunk in tqdm(pd.read_csv('\\large_array.csv', header

浏览 3提问于2019-11-13得票数 0

2回答

python、pandas

合并两个数据帧后：我有这样的数据帧： 0 2 NaN 3 1 2 NaN 4...index x y z 1 2 3 4

浏览 2提问于2017-07-18得票数 1

回答已采纳

1回答

包含json格式列的Dask数据帧

python、pandas、dask

我有一个包含json格式列的dask dataframe，我希望将该列解析为dataframe格式。.}},,,id address ...2000 DEF 3000 GHA我想我们可以通过read_json将json文件读入dask dataframe，但是我该怎么做呢？

浏览 5提问于2020-05-14得票数 2

3回答

使用MultiIndex删除DataFrame中的对称对

python、pandas

我有一个如下形式的pd.DataFrame，第0列中的数值不一定是不同的： >>> idx = pd.MultiIndex.from_arrays([["a", "a", "b", "b", "c","c"], ["b", "c", "a", "c", "a", "b"]]) >>> d

浏览 5提问于2021-01-25得票数 2

回答已采纳

1回答

我目前有一个csv文件，它有四列 ? 下一次我写入文件时，我想从E1写入。我一直在寻找解决方案，但似乎没有一个有效。 with open(file_location,"w") as csv_file: csv_writer.writerows(list_of_parameters) 其中list_of_parameters是所有四列的压缩。 list_of_parameters = zip(timestamp_list,request_c

浏览 18提问于2021-03-26得票数 0

回答已采纳

1回答

没有使用所有可用CPU核心的对接器中的Python代码(只使用一个)

python、docker、parallel-processing、joblib、pairwise-distance

我使用AWS批处理运行一个python脚本，其中有几个模块并行运行(在AWS上的一个码头容器中)。当我在Linux 16核心机器上手动调用脚本时，我看到16个python进程并行执行代码。其他细节:我正在运行的并行python方法是pairwise_distances (构建在joblib库上)--我在一台Windows 10机器上构建了码头映像，将其推送到ECR并使用AWS批处理调用它的运行我是否遗漏了调用python的并行后端的关

浏览 1提问于2020-03-25得票数 1

3回答

避免GroupBy在大型Pandas DataFrame上的内存问题

python、pandas、dataframe、memory、dask

pd.read_sql(query, engine)从这个df创建一个dask如下所示： df = dd.from_pandas

浏览 1提问于2018-04-26得票数 12

回答已采纳

4回答

ImportError:无法导入名称DataFrame

python、pandas

我第一次使用Pandas，并试图导入Pandas、DataFrame和pandas.io.datafrom pandas import DataFrame我知道错误了我尝试了以下方法来查找Ub

浏览 5提问于2015-05-11得票数 2

2回答

如何在Python中附加数据帧？

python、pandas

我正在用Python编写一个Pandas数据帧。每当我想要计算某些东西时，我需要键入整个数据框名和列名，如dataframe_name.column_name。之前我在R上工作，我们可以使用attach(dataframe_name)附加数据帧。我们可以在Python Pandas库中做类似的事情吗？

浏览 1提问于2021-07-29得票数 0

1回答

处理大熊猫数据帧

python、pandas、dataframe、dask、dask-dataframe

正如您可以想象的那样，python甚至在打开它时都很困难。现在，我尝试使用Dask将其导出到cdv到20个分区，如下所示：dask_merge_bodytextknown5 = dd.from_pandas(merge_bodytextknown5, npartitions=20) # Dask DataFrame has 20 partitions dask_merge_bodytextknown5，您知道如何减轻数据集或在python<em

浏览 2提问于2022-06-29得票数 2

回答已采纳

1回答

多处理vs Concurrent.futures库python (不适用于谷歌计算引擎)

python-3.x、google-cloud-platform、multiprocessing、google-compute-engine、concurrent.futures

我正在尝试并行化pandas操作，该操作将具有逗号分隔值的dataframe列拆分为2列。在我的python实例上，正常的pandas操作大约需要5秒，该实例直接在该特定列上使用df.str.split。我的数据帧包含两百万行，因此我试图降低代码的运行时间。作为并行化的第一种方法，我正在使用Python的多处理库，方法是创建与实例上可用的CPU核心数量相等的池。1) Google Compute引擎支持这些Python多处理库吗? 2)为什么并

浏览 16提问于2019-02-18得票数 1

2回答

如何将矩阵转换为pandas数据帧

python、pandas

我正在尝试将矩阵转换为pandas数据帧：matrixA[0,0]='a'matrixA[1,0]='c'import pandas as pd 我得到一个错误。

浏览 3提问于2014-11-06得票数 10

回答已采纳

1回答

如何通过Selenium获取股票代码？

python、selenium、web-scraping

我正在尝试从这个page中抓取股票代码。这是我的代码： from selenium import webdriver Columns: [沒有符合以上篩選條件的股票。]Index: [], 0 0 加入至心水組合：請先登入或註冊成為會員] 我知道它

浏览 13提问于2019-04-15得票数 0

回答已采纳

1回答

如何使用Python将数据从每个excel工作表复制并粘贴到最终工作表中？

python、excel、copy、paste

我在一个工作簿中有7个excel工作表，我正在尝试将每个excel工作表中的数据复制并粘贴到我的最终工作表中。下面的代码创建了名为“final sheet”的最终工作表，但不复制每个工作表中的任何数据。我需要一个循环来遍历每个工作表，并将数据复制并粘贴到最终的工作表中，但我不知道如何做到这一点。

浏览 24提问于2019-03-23得票数 2

2回答

如何在python中实现"class.object.function“？

python、class

因此，在Pandas中，我们可以对字符串列执行str操作，如我想知道，str.lower()是如何在类中实现的(注意，它不是关于str.lower()的具体实现，而是这样的东西一般是如何在python中实现的)？我唯一能想到的就是在这个类中定义的子类的一个方法。class DataFrame(): class

浏览 2提问于2022-05-20得票数 0

1回答

将Scala中的列表转换为Python或dataFrame

python、scala、apache-spark、apache-zeppelin、py4j

我在Scala中有一个名为dataList的2d列表，我想将它转换为Pandas DataFrame。val dataList: List[List[Int]] = tempData.toList<class 'py4j.java_gateway.JavaObject'> 据我所知，我必须使用py4j来访问Python中的集合。但是，我认为我必须使用一个嵌套循环来访

浏览 4提问于2016-04-23得票数 4

回答已采纳

1回答

在什么情况下，我可以使用Dask而不是Apache？

python、pandas、apache-spark、dask

我目前正在使用Pandas和星火进行数据分析。我发现Dask提供并行化的NumPy数组和Pandas DataFrame。 Dask对Python用户来说有一个优势，因为它本身就是一个Python库，所以当事情出错时，序列化和调试会更顺利。达克放弃

浏览 4提问于2016-08-10得票数 101

点击加载更多

如何修复过滤数据帧时出现的内存错误？

dask.delayed对象的分布与计算

分类后编号

读取大型csv作为Pandas DataFrame的速度更快