Python Pandas Dataframe:清理和操作数据的快速方法？_在Python pandas DataFrame中交换值以清理数据的最佳方法是什么_Python Pandas Dataframe -如果标志是'1‘，那么将数据转换为NaN的最快方法是什么？ - 腾讯云开发者社区

python、pandas、dataframe、data-manipulation、data-cleaning

我有多个时间序列数据帧，其中我必须不断地做相同的事情，例如:命名列、删除列、添加列、对列执行操作、对列执行numpy.select操作、删除列(最近，我一直在对现在不需要的列使用第二个数据帧)。有没有什么办法，我可以创建一个函数来做这些事情，而不需要一直复制和粘贴代码来准备我的数据？df = pd.read_csv('data.csv',sep='\t',names=cols) dcol=[&#

浏览 51提问于2021-01-19得票数 1

2回答

用NA替换pandas数据框中所有出现的值的快速方法

python、pandas

我正在使用python脚本来清理和连接许多大型.csv文件。具体地说，我正在使用pandas read_csv函数读取文件，然后将它们作为dataframe对象进行处理，这非常有效。这是我第一次使用pandas，所以我仍然在习惯它包含的所有令人难以置信的有用功能。我正在读取的csv文件使用-99.9作为标记值来表示NA/NaN。由于这与我在其他地方表示丢失数据的方式不同，因此我希望将-9

浏览 0提问于2013-07-05得票数 2

回答已采纳

1回答

向量化Python Pandas Dataframe

python、pandas、data-cleaning

我有csv文件，我正在将其读入Python Pandas Dataframe。我想对操作进行矢量化，以便使用针对某些列的一组用户定义函数对列运行数据清理，并将结果附加到数据帧中。我可以读取记录并逐个处理它们，但我想通过Pandas使用一个函数对1整列进行操作来向量化操作。输入数据帧0 a b c d 1 t f h e

浏览 3提问于2019-11-01得票数 1

1回答

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

pandas、dask

import pandas as pd import dask.dataframe as dd import timewarnings.simplefilter=1)d_data = dd.from_pandas{} sec'.format(time.time()-start))结果是：花费时间

浏览 0提问于2018-09-29得票数 0

回答已采纳

2回答

将R转换为Python管道-过滤器、选择和排序

python、pandas

我正在清理R中的数据集，并试图在Python中找到与我下面的清理过程相当的内容。df = dataframe %>% select(product) %>% 我知道如何在Pandas中进行过滤，我可以执行df[df‘’var‘!= ' string ']之类

浏览 7提问于2018-05-11得票数 3

回答已采纳

1回答

初学者用Python还是应用数据科学？

machine-learning、python、coursera

我是数据科学的新手，我想深入研究它。我和python一起对Udemy进行了一次关于ML的调查。由于我已经是一名程序员，我知道大部分的基本知识，我只需要熟悉这个脚本以及它是如何用python编写

浏览 0提问于2020-07-25得票数 0

1回答

将字典保存到.XLSX中

python、excel、dictionary

使用Python + Pandas，是否有一种快速简便的方法将Dict (由键的文件名和值的几列数据组成)保存到.XLSX文件中？经过一些研究之后，我尝试使用以下代码将其转换为Pandas DataFrame (因为我知道您可以使用Pandas DataFrame编写一个.XLSX文件)： import pandas as pdglob.glob

浏览 4提问于2015-10-09得票数 3

3回答

Python Pandas to R dataframe

python、r、pandas、rpy2

我将在R中将Python pandas dataframe转换为dataframe。我找到了几个库来解决这个问题但我找不到保存或转移到R的方法。首先我试了下"to_csv“df_R.to_csv(direc+"/qap/detail_summary_R/"+"distance_"+

浏览 0提问于2014-06-07得票数 17

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

2回答

有没有办法自动清理pandas* DataFrames的数据？*

python、pandas、data-cleaning

我正在为一个机器学习项目清理我的数据，方法是分别用“Age”和“for”列的零和平均值替换缺少的值。mean = train_data['Fare'].mean() 由于我必须对其他数据集多次执行此操作，因此我希望通过创建一个泛型函数来自动化此过程，该泛型函数将<

浏览 26提问于2021-10-11得票数 0

2回答

如何将单个列中的数据拆分为新行(其他列在新行中保持不变)

python、pandas

我有一个项目的枪支暴力数据集。其中一列包括参与者类型，无论是受害者还是主体/嫌疑人。参与者列中包含事件中的每个参与者的多个值。import pandas as pddata.head() incident_id我想带着每个参与者，在保持incident_id和日期不变的同时，给他们自己的行： incident_id

浏览 2提问于2019-11-20得票数 0

回答已采纳

1回答

JuliaDB或DataFrame比平面数组快吗？

julia

我想知道普通数组与JuliaDB或DataFrame在对大型数据集(大型但仍然适合内存)上的计算性能是否存在差异？我可以使用简单的数组和算法来进行排序、分组、缩减等等，那么为什么我需要JuliaDB或DataFrame呢？我有点理解Python为什么需要Pandas --因为它将缓慢的python转化为快速C，但是为什么Julia需要JuliaDB或DataFrame -- Jul

浏览 0提问于2018-03-26得票数 10

回答已采纳

1回答

有没有办法将Pandas* dataframe作为文件处理程序直接读取？*

python、pandas、dataframe、filehandler

我使用pandas从dataSource.cvs文件加载数据：在pandas中，我可以清理数据，比如用0填充缺失的值。接下来，我使用DF.to_csv('temp.csv', sep=',')将DF编写为临时cvs文件，然后使用python文件处理程序再次打开该文件。解析数据并关联来自其他数据表的

浏览 10提问于2016-07-25得票数 0

1回答

使用teradatasql包将数据框插入teradata

python、sql、teradata

我使用teradatasql包作为python和Teradata之间的连接器，它是Teradata的本地解决方案，用于从DB加载数据。但是，我想将我在python中创建的数据框插入回DB。是否可以使用teradatasql包将数据帧写入数据库？谢谢

浏览 14提问于2020-07-13得票数 1

回答已采纳

1回答

如何在csv文件中写入/覆盖

python、csv、python-3.7

所以我创建了这个数据库，我试图输入这个人的ID，这样我就可以更新person手术了。新的编码和python，但不知道如何得到这一点，因为上半年的工作，但下半部分只是删除整个数据库。这很困难，因为我知道如何添加行，但不知道如何编辑/添加特定的单词到某一行。任何帮助都将不胜感激。

浏览 8提问于2019-11-27得票数 0

回答已采纳

2回答

在python中读取庞大的sas数据集

python-3.x、pandas、sas

我有一个50 gb的SAS数据集。我想在pandas dataframe中阅读它。快速读取sas数据集的最佳方法是什么？我使用了下面的代码，它太慢了：df = pd.read_sas("xxxx.sas7bdat", chunksize = 10000000) dfs.append(chunk) df_final =

浏览 1提问于2019-10-30得票数 2

1回答

在Power中设置API从网站中提取数据

python、api、powerbi-desktop

我对python和API还比较陌生，基本上，我在吴福奥中有一个表单，我目前正在手动将数据导出到excel文档中，以便构建一个Power报告。我一直试图建立一个网络连接，直接到吴福，所以我不再需要做手动数据拉。我尝试使用Power中的get数据，并输入URL：)更新子域并使用表单的散列作为标识符，并将格式设置为json我在下面用Python构建了

浏览 4提问于2021-08-28得票数 0

回答已采纳

1回答

我可以使用没有括号的python方法吗？

python、pandas、methods

我是Python新手。我使用head()方法快速检查数据。import pandas as pddf.head()df.head 在使用方法时，带括号

浏览 3提问于2020-05-27得票数 0

回答已采纳

3回答

在python* pandas *dataframe中将列数据从“姓氏，名字”改为“名字姓氏”

python、pandas、dataframe、split、reverse

我有python pandas dataframe，它由用于执行python脚本的power bi数据源转换支持，其中一列由lastname, firstname组成，我需要它由firstname lastname我尝试了以下拆分、反转、连接方法，该方法适用于独立的字符串参数，但当我尝试对pandas数据帧中的列数据使用该方法时，会生成Attri

浏览 62提问于2020-06-17得票数 2

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

apache-spark、pyspark、apache-arrow

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。from pyspark.sql.functions import pandas_udfimport numpy as np oneCar.loc[1:, &

浏览 2提问于2018-03-26得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云