Pandas合并行/数据帧转换

Pandas是Python中一个强大的数据处理库，可以用于数据分析和数据操作。在Pandas中，合并行或数据帧转换是常见的操作。

合并行：在Pandas中，可以使用concat()函数将多个数据帧按行合并。concat()函数可以沿着指定的轴将多个数据帧连接在一起。例如：

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

merged_df = pd.concat([df1, df2], axis=0)

这里的axis=0表示按行合并。合并后的数据帧merged_df将包含所有行，即将df2的行追加到df1的下方。

数据帧转换：在Pandas中，可以使用pivot()函数进行数据帧的转换。pivot()函数可以将数据帧重新排列为新的形式，根据指定的列将行转换为列。例如：

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'two'],
                   'C': [1, 2, 3, 4],
                   'D': [5, 6, 7, 8]})

pivot_df = df.pivot(index='A', columns='B', values='C')

这里的index参数指定了转换后的数据帧中的行索引，columns参数指定了转换后的数据帧中的列索引，values参数指定了转换后的数据帧中的值。转换后的数据帧pivot_df将根据A和B列的唯一值创建新的行和列，并将对应的值填入。

Pandas官方文档中有更详细的介绍和示例，可以参考：Pandas官方文档。

对于相关的腾讯云产品和产品介绍链接地址，可以参考以下推荐：

云服务器（CVM）：腾讯云的云服务器产品，提供稳定可靠的云端计算资源。产品介绍
数据库（TencentDB）：腾讯云的数据库服务，包括关系型数据库和NoSQL数据库。产品介绍
人工智能（AI Lab）：腾讯云的人工智能平台，提供丰富的人工智能算法和模型服务。产品介绍
云存储（COS）：腾讯云的对象存储服务，提供安全可靠的云端存储空间。产品介绍
区块链（TrustSQL）：腾讯云的区块链服务，提供安全高效的区块链应用解决方案。产品介绍

注意，以上仅为示例推荐，具体的产品选择需要根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

如何将dbf文件转换为dask数据帧？

、、、

我有一个很大的dbf文件，将它转换成pandas数据帧需要花费很多时间。有没有办法将文件转换成dask数据帧？

浏览 2提问于2018-12-07得票数 0

1回答

apache箭头-并行处理的充分性

、、

我有一个庞大的数据集，并且正在使用Apache进行数据处理。使用Apache，我们可以将与火花兼容的数据帧转换为与Pandas兼容的数据帧，并在其上运行操作。通过转换数据帧，它是实现了在星火中看到的并行处理的性能，还是它的行为像潘达斯一样？

浏览 5提问于2020-07-03得票数 4

回答已采纳

1回答

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

1回答

dask dataframe应用程序不能并行执行

、、

我有以下python脚本，其中我使用现有的pandas数据帧创建了一个dask数据帧。我使用的是多进程调度器，因为我的函数使用纯python。调度器创建8个进程(每个分区一个)，但它们是按顺序运行的，一次一个。 dask_data = ddf.from_pandas(data, npartitions=8) dask_data = dask_data.assign( images_array_1=dask_data.images_array_1.apply(lambda x: [] if x == "" else [int(el) for el in x.split(

浏览 4提问于2016-06-29得票数 1

1回答

dask dataframe:来自分区的生成器

、、、、

我想知道是否有可能将dask对象转换为生成器。具体地说，是否可以使用dask数据帧复制以下pandas-based生成器，将每个分区转换为生成器： import pandas as pd import dask.dataframe as dd df = pd.DataFrame(range(10), columns=['a']) ddf = dd.from_pandas(df, npartitions=3) def gen_pandas(df): # this is a sample function, its content is not # important as l

浏览 7提问于2021-07-09得票数 1

1回答

火花数据帧

、、

星火数据帧和Pandas数据帧的区别是什么？我的理解是，Pandas数据框架主要用于将CSV数据读入DF，在DF中，Spark数据帧用于将弹性分布式数据( RDD )加载到数据帧中，并且可以操作数据帧。请分享你的反馈

浏览 6提问于2020-09-01得票数 0

回答已采纳

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ Name|age|city david|23|London krish|24|Bali john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。使用Pandas时，我常常这样写： string2 = StringIO(string_data) df = pd.read_csv(string2,sep='|')

浏览 7提问于2021-02-02得票数 0

1回答

如何使用dask dataframe中的rank函数？

、、、、

如何在dask数据帧上使用pandas的pd.rank()函数。或者，在dask中有没有其他的内置函数可以做同样的事情。

浏览 11提问于2019-10-23得票数 1

回答已采纳

1回答

数据帧上的spark GROUPED_MAP udf是否并行运行？

、、、

我正在尝试应用一个PandasUDFType.GROUPED_MAP函数，该函数将一个数据帧作为输入，并产生一个数据帧作为输出。当我执行sdf.groupby(key).apply(pandas_udf)时，它是基于可用资源将函数并行应用于多个组，还是按顺序将函数应用于一个组后另一个组？我还没有更改spark的任何默认设置。如果我想在组上并行执行udf，我还可以采用哪些替代方法？

浏览 41提问于2020-08-11得票数 0

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

、、、、

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask does not support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd import dask.dataframe as dd dask_df = dd.from_pandas(pandas_df) 实际上，我有700多个熊猫数据帧(每个超过100MB)，我计划将每个熊猫数据帧转换为dask，然后将它们全部附加到一

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

将Python列表解析为Pandas DataFrame

、、

我有一个数组，它的值由'|‘分隔。我想把它解析成一个熊猫数据帧。 import pandas as pd arr = ['19345360853|5264654|100530|2017-01-07', '19345360853|13518371|100530|2018-10-08'] pd.DataFrame([{'Id': item.split('|')[0] ,'Code_A': item.split('|')[1] , 'Code_B': item.split

浏览 7提问于2019-01-30得票数 2

回答已采纳

1回答

如何高效地遍历此数据帧并使用内置的numpy或pandas执行函数？

、、、、

我之前读过this的文章，注意到pandas应用函数，iterrows和for循环是非常慢和高效的处理pandas数据帧的方式。我正在对一些文本数据进行情感分析，但使用apply会导致高内存使用率和低速度，类似于this answer中所示。 %%time data.merge(data.essay.apply(lambda s: pd.Series({'neg':sid.polarity_scores(s)['neg'], 'neu':sid.

浏览 9提问于2020-01-07得票数 0

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

2回答

创建子数据帧列表的最快方法

、

我有大量的数据。它包含10年的日期变量(大约3650天)，每天有超过10,000次观测。因此，总行数为36,500,000。我的目标是将多个(大约3650个)子数据帧按日期分组，并将其放入单个列表中。我使用的方式是for-loop，这需要花费很多时间。实际上，在我的电脑规格下，完成这项工作需要大约1个小时。我想找到创建多个子数据帧的最佳(最快)方法，并将其放入列表中。我的代码和简单示例如下所示。感谢您的阅读。 import pandas as pd import pandas as pd import numpy as np df = pd.DataFrame({

浏览 21提问于2020-07-17得票数 0

回答已采纳

1回答

Pandas GroupBy查询

、、

我在pandas中有一个数据帧，如下所示：Snapshot of my pandas dataframe 现在我希望转换数据帧，如下所示，根据排序的日期值(%m/%d/%Y)，使用分隔符为每个customerid连接属性'category‘。日期较早的订单具有对应的客户id，其类别列在第一位。 Desired/Transformed data frame

浏览 12提问于2019-02-24得票数 3

回答已采纳

1回答

如何使用tabula将PDF表格提取到dataframe中

我正在尝试提取PDF文件的“内容”页面(例如，第2页)作为一个表，并提出一个数据帧来跟踪项目与其对应的起始页码。一些人建议使用"Tabula“。我尝试了几行，但似乎要么找不到read_pdf模块，要么得到一个空的数据帧。感谢任何帮助，让它工作？ from tabula import wrapper myfile='‘ df = wrapper.read_pdf(myfile)

浏览 0提问于2017-11-18得票数 0

1回答

Delta Lake:性能挑战

、

方法1:我的输入数据是一堆json文件。经过预处理后，输出为pandas数据帧格式，该格式将写入Azure SQL数据库表。方法2:我已经实现了delta lake，其中输出pandas数据帧被转换为Spark数据帧，然后将数据插入到分区的Delta Table中。这个过程很简单，而且将pandas数据帧转换为spark数据帧所需的时间以毫秒为单位。但与方法1相比，性能很差。使用Approach1，我能够在不到方法2所需时间的一半内完成。我尝试了不同的优化技术，比如ZORDER，压缩(装箱)，使用insertInto而不是saveAsTable。但没有一种方法真正提高了性能。如果我错过

浏览 8提问于2020-10-28得票数 1

1回答

Python:我如何才能将一行熊猫数据帧转换为数据帧？

、、

我有一个熊猫数据框架： type(df_s1) Out[362]: pandas.core.frame.DataFrame 这是它的一行。它是一个系列，而不是一个数据帧。但我希望它是一个数据帧。我该怎么做呢？ type(df_s1.iloc[(j+2), 0:n_s]) Out[363]: pandas.core.series.Series 对于数据帧中的多个行，这不是问题。 type(df_s1.iloc[(j-1):(j+2), 0:n_s]) Out[364]: pandas.core.frame.DataFrame

浏览 7提问于2020-04-22得票数 0

1回答

当追加多个列时，如何解释DataFrame.assign(**kwargs)和dd[x]=y在Dask中的性能差异？

、、、

在将一些代码从Pandas迁移到Dask时，我发现通过使用多列调用DataFrame.assign()来修改Dask数据帧与使用多个DataFrame.__setitem__() (也称为dataframe[x]=y)调用来修改它之间存在巨大的性能差异。使用导入 import pandas, dask, cProfile 对于定义如下的Dask数据帧： dd = dask.dataframe.from_pandas(pandas.DataFrame({'a':[1]}), npartitions=1) cProfile.run('for i in range(100)

浏览 3提问于2020-04-16得票数 0

1回答

在多线程中同时加载不同的数据帧

、、

我有一个flask服务器，它对数据帧执行读写查询。我有一个缓存机制(使用cacheout库)在收到请求时缓存数据帧，然后在接收到对相同数据帧的请求时使用缓存的数据帧。目前，我正在使用一个锁，它使所有线程依次加载它们(不同的)数据帧，然后进一步处理加载的数据帧。我想要的是，当我收到对不同数据帧的多个请求时，每个线程(对于每个请求)应该同时(使用pandas.read_excel)将数据帧加载到内存中，而不是顺序加载。目前我使用的是一个简单的锁，它可以确保相同的数据帧不会被加载两次，但我也需要并行加载多个数据帧。 ` `def read_query_request(query，file_pa

浏览 0提问于2019-02-08得票数 0

1回答

将大于内存的SQL查询读入dask数据帧

、、

我需要将SQL表中的条目读取到dask数据帧中，以处理我需要读取的条目数量可能会超过内存中可以容纳的条目数量如何使用dask完成此操作？我正在做这件事 def get_frame_from_query(query, column_names): frames = [] batch = [] # TODO ask stackoverflow about this. for row in database_conn.FetchManyIter(query,batch_size=30000): #read from the database 30k rows at

浏览 13提问于2020-03-04得票数 1

回答已采纳

1回答

使用Pandas模块写入Excel文件

、、

如何使用Pandas模块将项目列表[1,2,3,4,5]写入excel文件中的特定选项卡中，从特定的行和列位置开始？是否涉及pandas.DataFrame.to_excel函数?在将list写入excel文件之前，是否需要将其转换为dataframe？我是否要先将列表转换为序列，然后将序列转换为数据帧，然后将数据帧写入excel文件？

浏览 24提问于2016-08-04得票数 0

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

、

问题: DASK数据帧 loc[concrete_row, concrete_column] 返回多行的pandas数据帧，每行都有相同的索引： 0 [1,2,3] 0 [1,2] 0 [3] 而不是一个行值。 0 [1,2,3] 我正在阅读许多拼图文件： dd.read_parquet(dataset_dir+'/train/date*/*.parquet') 拼图文件中的每一行都有一个数组！似乎在调用具体行时，dask data

浏览 48提问于2019-06-05得票数 0

2回答

将spark的MLLib例程与pandas数据帧一起使用

、、、

我有一个非常大的数据集(大约20 it )存储在磁盘上，名为Pandas/PyTables，我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间，所以我想把它租给一个我可以访问的spark集群，而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧，但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib，它似乎只接受LabeledPoint数据类型。我非常感谢任何想法/指针/代码来解释如何使用(pandas或spark)数据帧作为MLLib算法的输入-无论是直接还是间接地，通过转换为支持的类型。谢谢。

浏览 1提问于2015-05-06得票数 0

1回答

elastic search python客户端如何处理传输错误？

、、

我正在上传How to export pandas data to elasticsearch?的数据帧到elastic (使用elasticsearch==6.3.1)，如果数据帧大小小于100MB，它可以正常工作，我使用elastic的解决方案 def rec_to_actions(df): for record in df.to_dict(orient="records"): yield ('{ "index" : { "_index" : "%s", "_type" : &

浏览 24提问于2020-11-24得票数 0

回答已采纳

2回答

如何在python中将多个函数应用于多核上的dataframe列

、、

我有一个pandas数据帧，并希望在多个核心上并行地对其中一列应用三个不同的函数。例如： df = pd.DataFrame( {'col1': ['LA','Boston','Phoenix','Toronto'], 'col2': [2,3,4,5]}, columns=['col1', 'col2']) def function1(x): return(x**2) def function2(x): return(x**3) def fun

浏览 0提问于2021-10-23得票数 0

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

1回答

是否可以从pandas dataframe中的图像中读取表数据？

、、、

有没有办法将扩展名为.jpeg/.png/.bmp的图像读取到pandas数据帧中？图像将包含表数据，如下所示：请告诉我有没有办法从图像中读取表格内容到pandas数据帧中。谢谢!

浏览 2提问于2021-10-08得票数 2

1回答

PyArrow表到PySpark数据帧的转换

、、

我正在尝试将我的Pandas数据帧转换为PySpark数据帧。createDataFrame函数不起作用，所以我找到了PyArrow。我可以转换PyArrow表--> Spark表，但是我找不到任何方法来转换Pandas表--> Spark 有谁知道我该如何做到这一点？谢谢

浏览 1提问于2018-11-16得票数 3

1回答

选择子集后将其转换为pandas时，Dask dataframe内存不足

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。 import dask.dataframe as dd df = dd.read_parquet(file) 现在我需要其中一列的值计数和归一化值计数： count = df.a.value_counts() percent = df.a.value_counts(normalize = True) a_count = dd.concat([count,percent], axis=1, keys=['counts', '%

浏览 1提问于2021-09-23得票数 0

1回答

Pandas dataframe，ValueError:无法将字符串转换为浮点型：

、、

我在400,000 x 600大小的数据帧(800MB)的Pandas数据帧上使用scikit-learn预处理和随机森林集成技术。当我通过算法传递这个数据帧时，我得到了这个值错误，可能是由于数据帧中的某个地方有额外的空格。我如何从我的数据框中清理所有应该只包含数值而绝对不包含字符串的空格？

浏览 0提问于2017-01-31得票数 1

2回答

将Pandas Dataframe写入DBF文件？

、、、

我正在使用shapefile，它将属性数据存储在DBF文件中。我需要使用Pandas操作属性，并将新的DBF数据写回磁盘。不幸的是，Pandas数据帧没有df.to_dbf方法(而R有)。我到处寻找，但似乎没有看到任何明显的方法来完成这项任务。如何将pandas数据帧保存为DBF文件？

浏览 208提问于2017-07-04得票数 4

回答已采纳

1回答

绘制随时间变化的Python文本(Tweet)大型数据集中特定单词的出现次数

、、、、

我需要用一列文本为pandas数据帧(时间序列)绘制一个单词随时间的出现情况。数据帧如下所示： index, date, ... , text 2020-10-20 20:20:00 , 2020-10-20 ,... , "The text goes here" . . . 我想要的是一个图表，它显示了一个特定的单词(例如"here")随时间的出现情况。这是我目前所拥有的(它可以完成这项工作，但对于大数据和多个单词来说效率非常低)： df['contains_word']=df['text

浏览 18提问于2020-10-21得票数 1

1回答

使用pyspark直接从hdfs加载pandas的大数据

、

我直接从数据库中获取数据，大约有5-1200万的数据。当我尝试将其转换为pandas数据帧以进行分析时。由于音量太大，它总是崩溃。举个例子 df1 = spark.sql("select * from database.table") sample = df1.toPandas() ## this is where it wont execute 我读到有人建议使用dask和chunksize。但这是作为csv读取，然后转换为数据帧，否则我将直接从数据库获取。有没有一种有效的方法可以在很短的时间内将这些数据加载为pandas数据帧？

浏览 7提问于2020-06-22得票数 0

1回答

MongoDB聚合管道vs Pandas聚合

、

我们目前使用了大量的MongoDB聚合管道来做一些数据处理。然而，我们经常遇到一些性能问题。我正在考虑将数据从MongoDB读取到Pandas数据帧中，并使用Pandas数据帧聚合来处理数据。有谁有比较这两种方法的经验吗？另外，MongoDB聚合管道是否利用了内部的某种并行性？

浏览 0提问于2020-05-15得票数 2

1回答

将二维pandas数据帧重新映射到三维xarray

、、、、

我目前有一个很大的2-d pandas时间序列值(1年或更长时间)的数据帧，我想将其重新映射到3-d xarray。pandas数据帧具有对应于另一个引用数据帧中的(经度，经度)坐标的column_id。在xarray中有什么固有的功能可以实现这一点吗？

浏览 25提问于2019-07-31得票数 0

1回答

在对单个数据帧进行计算后，使用Dask返回多个数据帧

、、

有没有办法获取一个DataFrame (最初在Pandas中，用不同的随机种子对其进行采样，并使用Dask返回几个数据帧(每个随机种子一个)。我对Dask非常原始的理解是，我可以获取一个Dataframe，拆分它，然后在它上面进行计算，但我想知道我是否可以使用Dask来解决这个问题。

浏览 19提问于2019-06-28得票数 0

回答已采纳

1回答

如何在pandas中编写10cr行10列的大型csv

、

我有一个超过10cr行和10列的pandas数据帧。我想把它写成csv格式。目前，我正在使用以下内容 df.to_csv("df1.csv") 写入文件需要很长时间。我们可以压缩它然后把它写到csv吗？

浏览 11提问于2018-12-14得票数 3

回答已采纳

1回答

这个错误消息在Pyspark中是什么意思？

、

当我想要计算一个大约有1200万行的pyspark数据帧时，我得到了以下错误消息。此外，当我想要将数据帧转换为pandas时，我收到了一个错误消息。因此，每个检查函数都是这种错误的一种，如图所示。我能做什么?

浏览 0提问于2021-11-29得票数 0

2回答

从单个pyspark dataframe返回多列

、、、、

我正在尝试解析单个列的columns.My数据帧，并获取具有多个pyspark数据帧的数据帧，如下所示： a b dic 0 1 2 {'d': 1, 'e': 2} 1 3 4 {'d': 7, 'e': 0} 2 5 6 {'d': 5, 'e': 4} 我想要解析dic列并获得数据帧，如下所示。如果可能的话，我期待着使用pandas UDF。我的预期输出如下： a b c d 0 1 2 1 2 1 3 4 7

浏览 40提问于2020-03-01得票数 0

回答已采纳

1回答

在Numpy数组上执行Pandas函数

、、、、

我有一个大约8700万行的Pandas数据帧。为了对其进行一些处理，我将其设置为Dask数据帧。问题是我需要做Dask不支持的unstack和plot。我已经将Dask数据帧写入h5文件，但在尝试将其作为Pandas数据帧读取时遇到内存问题。我在将Dask DF转换为Pandas时也遇到了内存错误。从本质上讲，我尝试做的是df2 = df.groupby(['A','B'])['B'].count().unstack('A')，然后是df2.plot(kind = 'bar', stacked = True)。

浏览 2提问于2020-04-22得票数 2

1回答

在Python语言中使用PyMongo在MongoDB中插入文档

、、、、

我使用Python语言中的PyMongo库在MongoDB中插入文档。pandas数据帧有37个字段和60k条记录(数据集链接：)。数据帧中的所有字段都已转换为str类型。我收到以下错误： OverflowError: MongoDB can only handle up to 8-byte ints 当我使用for循环插入2500个文档的块时，错误仍然存在。代码片段： import pandas as pd import pymongo client = pymongo.MongoClient() db = client['patenting_in_psi'] colle

浏览 0提问于2018-02-16得票数 0

2回答

识别pandas read_sql中的日期类型

、、、

在pandas中使用read_sql时，该函数需要确定哪些列应该被视为日期(参见下面的代码片段)。但是我事先不知道哪些栏是日期。给定一条select语句，我需要检索它的列类型并将结果集加载到pandas数据帧中。我期望pandas在从select创建dataframe时标识date类型的列并分配类型。在select语句或数据帧中标识date类型的最佳方法是什么？我尽量避免使用pyodbc运行语句来检测类型。 import pyodbc import pandas as pd conn = pyodbc.connect.... sql_df = pd.read_sql( &#

浏览 60提问于2020-10-03得票数 1

2回答

如何更改python中所有列的数据类型

、

我使用的是pandas数据帧。数据包含3032列。所有列都是'object‘数据类型。如何将所有列转换为“float”数据类型？ ? ?

浏览 30提问于2020-12-01得票数 1

回答已采纳

3回答

如何加速将数据帧导入pandas

、、

我理解pandas导入csv文件相对较慢的原因之一是，在猜测类型之前，它需要扫描一列的整个内容(请参阅关于pandas.read_csv的low_memory选项的讨论)。我的理解正确吗？如果是这样的话，什么样的格式才是存储数据帧的好格式，哪些格式显式地指定了数据类型，这样pandas就不必去猜测了(SQL暂时不是一个选项)？有什么特别的选择吗？我的数据帧有浮点数、整数、日期、字符串和Y/N，所以只支持数字值的格式是行不通的。

浏览 0提问于2017-11-15得票数 2

2回答

如何将Python Dataframe转换为列表列表？

、、

我有一个尺寸为21392x1972的Python数据帧。我想要完成的是将数据帧转换为列表列表，这样我的数据帧的第一列是长列表中的第一个列表，数据帧的第二列是具有一个长列表的第二个列表，依此类推。我尝试使用tolist()将数据帧转换为列表列表。现在发生的情况是，我的数据帧的每一行都变成了长列表中的一个列表。但是，我想要完成的是，数据框的每一列都应该成为长列表中的一个列表。我刚开始使用Pandas和Python，所以在这方面的任何帮助都是非常感谢的。干杯! import pandas as pd mydataset = pd.read_csv('final_merged_data.c

浏览 21提问于2019-01-18得票数 0

回答已采纳

1回答

如何正确地将字典的值追加到空的数据帧中？

、、

您好，我正在尝试创建一个将在for循环中添加行的dataframe。因此，我决定首先创建一个空版本的dataframe，然后为新行创建一个字典，并在循环的每次迭代中将该字典附加到dataframe。问题是数据帧中的值与字典中的值不匹配：我创建了一个空的数据帧，如下所示： import pandas df = pandas.DataFrame({"a":[], "b":[], "c":[]}) 然后，我将创建一个字典，并将其附加到数据帧中，如下所示： dict = {"a":1, "b":2, "c

浏览 30提问于2021-07-13得票数 0

回答已采纳

19回答

有没有一种简单的方法可以将Pandas数据帧中的yes/no列更改为1/0？

、、、

我将csv文件读入pandas数据帧，并希望将具有二进制答案的列从yes/no字符串转换为1/0整数。下面，我展示了其中一列("sampleDF“是pandas数据帧)。 In [13]: sampleDF.housing[0:10] Out[13]: 0 no 1 no 2 yes 3 no 4 no 5 no 6 no 7 no 8 yes 9 yes Name: housing, dtype: object 非常感谢您的帮助！

浏览 18提问于2016-12-01得票数 53

2回答

to_sql TypeError: sequence item 0:预期的字符串实例，使用Pandas时找到的dict

、、

我正在尝试将数据框导出到mysql数据库中。我正在通过订单和库存API调用来获取数据。我已经成功地将订单和库存API调用保存到数据帧中，并将订单数据帧导出到MySQL表中。然而，清单数据帧抛给了我一个错误： TypeError: sequence item 0: expected str instance, dict found 我不确定我做错了什么，我确实怀疑清单的dataframe在许多列中包含许多嵌套的json，但不确定该怎么办。到目前为止，我的清单代码如下： import pandas as pd #python libary to compare today date for

浏览 15提问于2018-02-02得票数 1

回答已采纳

1回答

使用FeatureUnion向来自不同列的countvectorizer添加功能

、、、、

我目前正在尝试添加一个额外的功能到一个countvectorizer矩阵，这个矩阵是用scikit-learn创建的。工作流程如下:我有一个dataframe，它包含一个包含文本的列和一个包含附加特性的列。我首先将我的数据分成训练数据帧和测试数据帧。然后，我在训练数据的文本列上应用countvectorizer。然后，我用计数分解器矩阵作为输入来拟合RandomForest分类器。我现在试图确定的是，我想使用矩阵和数据帧中另一列中的附加功能来运行RandomForest分类器。我怎样才能做到最好呢？我已经读到过scikit功能联合，但无法在我的数据框架中使用不同的列。下面是一个代码

浏览 22提问于2021-01-25得票数 0

回答已采纳