Pandas如何创建具有开始和结束的新数据帧，即使在不同的行上也是如此_如何应用相同的函数和不同的输入参数在pandas数据帧中创建新列？ - 腾讯云开发者社区

apache-spark、apache-spark-sql

我想知道spark中的数据帧缓存是否是线程安全的。在我们的一个用例中，我从一个hive-table创建一个dataframe，然后通过不同的线程在同一个dataframe上运行多个SQL。由于我们的存储和计算是解耦的，而且由于某些原因读取非常慢，我在考虑将数据帧缓存到内存中，并将缓存的数据帧用于所有查询。数据帧缓存是线程安全的吗？这样做还有其他的陷阱吗？我的计算集群中有足够的内存(磁盘和内存)来缓存表，我将在相同的数据帧上执行10+查询。谢谢, 阿卡什

浏览 17提问于2020-03-10得票数 0

1回答

如何将pandas/pyspark数据帧读写到Snowflake

python、pandas、dataframe、apache-spark、snowflake-cloud-data-platform

我想用我创建的pandas dataframe填充一个雪花表。我已连接到Snowflake -如何将pandas数据帧写入Snowflake表？

浏览 2提问于2021-07-20得票数 0

1回答

是在路由器和主机之间创建的新帧。

router、packet-path

试图了解主机和路由器之间的帧是如何构造的。我的基本理解是，需要一个新的帧来封装来自每个路由器的数据包。例如，如果您有主机B和主机C，在它们之间有3个路由器，并且您从主机B发送一个数据包到主机C。这意味着包将被打包在主机B的帧(例如帧B)中，然后发送到第一个路由器(即路由器R1)。然后，路由器R1将解包，确定需要转到路由器R2，并将包封装在一个全新的帧(帧R1)中。这将持续到数据包完成整个路由，从主机B到主机C。总之，这将使总共创建四个(4)帧来从开始到结束获取数据包。这大体上是对的吗？请帮帮忙

浏览 0提问于2019-05-09得票数 2

回答已采纳

1回答

取消使用压缩的分区重建

sql-server、index、sql-server-2017、compression、rollback

试着在生产中启用大型表的压缩，但是我们现在没有时间了(已经运行了6.5小时)。取消操作并让其回滚会产生什么影响？试图确定我们是否应该通过，让它完成或杀死它，让它回滚。然而，如果折回6.5小时的操作将需要同样的时间，那么我们可能想让它完成。我们在QA中测试了它，它的磁盘速度较慢，它在4小时内就完成了，所以我们不完全确定为什么要花这么长时间。要知道的事情：表的大小约为271 GB。3000万行到了3小时，驱动器就满了，大约40分钟后我们就把它扩大了。流行的等待类型是IO_Completion sp_whoisactive显示CPU和physical_reads在增加，而读/写已经有一

浏览 0提问于2018-04-20得票数 2

回答已采纳

1回答

在单独的列中分隔嵌套列表和字典

python、list、dictionary、nested

我创建了一个函数来收集以下示例列表： full_list = ['Group1', [{'a':'1', 'b':'2'},{'c':'3', 'x':'1'}] 'Group2', [{'d':'7', 'e':'18'}], 'Group3', [{'m':'21'}, {

浏览 9提问于2020-06-15得票数 0

回答已采纳

1回答

如何在多个dataframe lambda函数上实现dask映射分区？

python、pandas、dataframe、multiprocessing、dask

我已经使用pandas实现了两个数据帧之间的模糊字符串匹配算法。我的问题是如何将其转换为使用多核的dask操作？我的程序在纯python上运行大约3-4天，我想并行操作以优化时间成本。我已经使用多处理包通过以下代码提取了内核数量： numCores = multiprocessing.cpu_count() fields = ['id','phase','new'] emb = pd.read_csv('my_csv.csv', skipinitialspace=True, usecols=fields) 然后，我必须根据每个字

浏览 3提问于2018-05-19得票数 0

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

python、python-3.x、pandas、csv、sqlalchemy

我有一个运行pandas版本0.25.2的服务。此服务从数据库读取数据并将快照存储为csv df = pd.read_sql_query(sql_cmd, oracle) 查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3的不同机器上，我将csv文件的内容读入数据帧，并尝试将date列的数据类型更改为datetime。这将导致OutOfBoundsDatetime异常 df = pd.read_csv("xy.csv

浏览 18提问于2019-11-08得票数 1

回答已采纳

3回答

任务:我正在尝试从字典列表中创建一个pandas数据帧。问题:这会为每个字典项创建一个数据帧

python、pandas、dataframe、dictionary

我正在尝试从三个列表创建一个dataframe，这三个列表是我使用网络抓取的数据生成的。但是，当我尝试将这些列表转换为字典，然后使用它们来构建我的pandas数据帧时，它会为每个字典项(行)输出一个数据帧，而不是将所有这些项都作为行包含在数据帧中的一个数据帧。我认为问题出在我用来网络抓取数据的for循环中。我知道在这个问题上也有人问过类似的问题，包括这里的Pandas DataFrame created for each row和这里的Take multiple lists into dataframe，但我已经尝试了这些解决方案，但没有任何乐趣。我相信网络刮擦循环增加了一个细微的差别，使

浏览 24提问于2020-08-19得票数 0

2回答

数据帧中所有列在某个范围内的最小值

python、pandas、dataframe、data-science、min

我想要找出数据帧中每一行的最小值，限制为只有几列。例如:考虑一个大小为10*100的数据帧。我想要中间5行的最小行，它的大小是10*5。我知道使用df.min(axis=0)来找到最小值，但是我不知道如何限制列数。谢谢你的帮助。我用的是pandas lib。

浏览 18提问于2020-04-10得票数 0

回答已采纳

1回答

从数据帧列表生成单个DataFrame

list、pyspark、apache-spark-sql、jupyter-notebook、pyspark-dataframes

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

1回答

在MS Access中比较日期范围内的多行数据以创建新表

sql、ms-access

我是SQL和MS-Access的新手，但是我在MS-Access中有一个数据表，如下所示： ID | Start_Time | End_Time 1 | 1:00:00 PM | 1:00:30 PM 2 | 2:15:10 PM | 2:15:50 PM 3 | 2:15:30 PM | 2:18:40 PM 4 | 2:17:00 PM | 2:17:30 PM 5 | 2:45:10 PM | 3:03:10 PM 每一行都按顺序记录到数据库中。我想要比较每个的开始和结束时间，并将重叠的行合并在一起。例如，ID1的Start_Time和End_Time在表中的任何其他时间都不

浏览 0提问于2016-11-27得票数 0

2回答

ModuleNotFoundError:数据库中没有名为“”xlsxwriter“”的模块

pandas、dataframe

我正在尝试将pandas dataframe的内容保存到windows/azure databricks的excel文件中。将熊猫作为pd导入根据数据创建一个Pandas数据帧。 df = pd.DataFrame({'Data'：10，20，30，20，15，30，45}) 使用XlsxWriter作为引擎创建一个Pandas Excel编写器。 writer = pd.ExcelWriter('pandas_simple.xlsx'，engine='xlsxwriter') 将数据帧转换为XlsxWriter Excel对象。 Df.to

浏览 234提问于2020-07-03得票数 2

1回答

独立于DataTable - RowNotInTableException存储DataRows

c#、asp.net、ado.net、datatable

我正在创建一个将DataTable中行的ID字段映射到行本身的HashMap，以改进一些经常访问的表的查找时间。现在，时不时地，我会得到RowNotInTableException：此行已从表中删除，并且没有任何数据。BeginEdit()将允许在该行中创建新数据。环顾一下网络，DataRows似乎不喜欢不连接到DataTable上。即使DataTable仍然留在内存中(不确定DataRows是否保留了对它的引用，但无论如何我仍然会缓存它)，我会不会因为将这些行都隔离在HashMap中而破坏了某些东西？还有什么原因会导致这个错误呢？这篇文章讨论了一个类似的问题，但也没有解决方案。更新如

浏览 1提问于2011-06-15得票数 2

回答已采纳

3回答

筛选出超过一定数量的NaN的行

python、pandas、dataframe、filter

在Pandas数据帧中，我想过滤掉所有超过2个NaN的行。本质上，我有4列，我只想保留那些至少有2列有限定值的行。有人能建议一下如何实现这一点吗？

浏览 10提问于2014-04-22得票数 9

回答已采纳

1回答

如何创建代理类以小写Pandas DataFrame中的键？

python、pandas

我有一些老代码涉及潘达斯和詹森。老Json曾经用过像这样的合适的套管： [ { "FirstName": "Bob" } ] 新的json使用小写，如下所示： [ { "firstname": "Bob" } ] 有数千行经过测试的和以前工作过的Python代码，它们假定了正确的外壳，如下所示： import pandas as pd f = pd.read_json(f) df = pd.DataFrame(f) print(df['FirstName

浏览 4提问于2022-02-01得票数 1

1回答

“'Line 2D”对象没有属性“kind”-- pyplot.plot( )和.plot( )是否不同？

python、pandas、matplotlib

我正在学习datacamp上的pandas模块，在一门特殊的课程中，讲师使用： dog_pack.plot(x= "height_cm", y= "weight_kg", kind="scatter") plt.show() 创建散点图。在我本地的PC上，我尝试对gapminder数据集做同样的事情，这是预期的： # with the necessary imports (gapminder, matplotlib.pyplot, pandas) gapminder.plot(x = "gdpPercap", y = "

浏览 31提问于2020-10-02得票数 0

回答已采纳

1回答

从pandas dataframe中选择特定行

python、numpy、pandas

我在pandas数据帧中执行了group by，以查看每个位置和每个日期有多少行。 agg_count = df.groupby(['date', 'location']).count() 现在，我希望看到这个新数据帧中满足特定条件的行。比如说，计数大于50。我如何高效地迭代这个巨大的数据帧来获得这些行？

浏览 1提问于2013-03-26得票数 1

回答已采纳

3回答

如何在pandas中创建datetime索引

python、numpy、pandas

如何创建用于原始数据系列的datetime索引"foo"。(示例是每15秒“foo”和每30秒“foo2”)。如果原始序列可以插入到“基本”数据帧中，我想使用“foo”来重新转换数据帧。如果需要组合df " foo“和df "foo2”的序列，内存命中率会是什么，最好用原始数据序列填充foo索引。编辑:在import pandas之后，datetime.timedelta停止工作

浏览 0提问于2012-04-05得票数 2

1回答

使用Parquet存储不同宽度的多个数据？

python、pandas、apache-spark、parquet

Parquet是否支持在单个文件中存储不同宽度(列数)的各种数据帧？例如，在HDF5中，可以存储多个这样的数据帧并通过密钥访问它们。到目前为止，从我的来看，Parquet不支持它，所以可以选择将多个Parquet文件存储到文件系统中。我有一个相当大的数字(比如10000)的相对较小的帧~1-5MB的处理，所以我不确定这是否会成为一个关注？ import pandas as pd import pyarrow as pa import pyarrow.parquet as pq dfs = [] df1 = pd.DataFrame(data={"A": [1, 2, 3],

浏览 0提问于2018-05-21得票数 13

回答已采纳

3回答

如何直接保存gzipped格式的pandas数据帧？

python、gzip、pandas

我有一个熊猫数据框架，叫做df。我想将其保存为gzipped格式。实现这一点的一种方法是： import gzip import pandas df.save('filename.pickle') f_in = open('filename.pickle', 'rb') f_out = gzip.open('filename.pickle.gz', 'wb') f_out.writelines(f_in) f_in.close() f_out.close() 但是，这需要我首先创建一个名为filename.pi

浏览 0提问于2012-10-23得票数 12

2回答

将新列插入到数据帧中会给出'ValueError:值的长度(4)与索引的长度(6)不匹配‘

python、python-3.x、pandas、data-science

我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而，我得到了以下error.But，我想我必须输入与lines.How数量一样多的数据，我可以在我想要的行和列中输入信息吗？如果不输入数据，如何创建列？ import pandas as pd kd = pd.DataFrame(data) insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True ) print(kd) 错误： ValueError: Length of values (4) does not match length o

浏览 302提问于2020-10-10得票数 2

回答已采纳

1回答

用现有数据帧填充Pandas Dataframe，但保留形状

python、pandas、dataframe

我使用以下命令创建了一个Pandas数据帧： df = pd.DataFrame(index=np.arange(140), columns=np.arange(20)) 这给了我一个140行20列的空数据帧。我有另一个有120列和20行的数据帧，我称之为df2。我想添加这些行来填充df，但仍然保留140x20的形状。当我使用：newdf = df.append(df2)时，我得到了一个有280行和20列的数据帧。

浏览 18提问于2021-01-21得票数 0

回答已采纳

1回答

Python DataFrame合并

python、pandas、dataframe、merge

我需要合并两个数据帧。我通过读取文件创建了以下几个数据帧。我需要做的是拉出“Depth”列，并将其插入到新的数据帧中。然后，我会将合并后的数据帧中的列'Depth‘重命名为该部分的序列号。然后再重复一遍。 sigData示例 Current Depth Time Velocity 0 130 11066 0.1 26516 1 150 13716 0.2 24090 2 153 15995 0.3 25052 3 157 19109 0.4 26596 4 160 20298 0.5

浏览 33提问于2020-05-14得票数 0

回答已采纳

2回答

如何让Dask知道索引已排序？

dask

根据 answer的说法，如果Dask知道数据帧的索引已排序，则Dask数据帧可以执行智能索引。如何让Dask知道索引是否已排序？在我的特定情况下，我这样做： for source is sources: # This df has a datetimeindex that I know to be sorted pd = load_pandas_df_from_some_source(source) dd = dask.dataframe.from_pandas(pd, chunksize=foo) dd.to_hdf(some_unique_filename, '

浏览 11提问于2017-06-23得票数 3

1回答

熊猫从url中读取.csv，起始行标题较少。

python、pandas、csv、header

我想从.csv下载一个文件(直接下载csv，)。我面临的问题是，我想开始导入的行列比后面的行少，我只是不知道如何读到熊猫。实际上，这个csv文件并不漂亮。以下是我想从熊猫中导入csv的方法：忽略有“交易日期”的第一行各节之间的单独数据帧(使用for循环，在有空行的地方分开) 将JPX代码(如16509005)和仪器(如FUT_TOPIX_2009)存储在其他列中。设置headers 'institutions_sell_code‘、'institutions_sell_eng’、‘sell_sell_sell’、

浏览 1提问于2020-08-02得票数 1

回答已采纳

2回答

基于分位数的采样数据帧(pandas)

python、pandas

我有一个数据帧，我想基于参数num_samples对其进行采样。我想基于年龄跨分位数进行均匀采样。例如，如果我的数据帧有1000行和num_samples = .5，我将需要采样500行，但从每个分位数采样125行。我的数据帧的前几条记录如下所示： Age x1 x2 x3 12 1 1 2 45 2 1 3 67 4 1 2 11 3 4 10 18 9 7 6 45 3 5 8 78 8 4 7 64 6 2 3 33 3 2 2 我如何在python/pandas中做到这一点？

浏览 22提问于2021-04-23得票数 1

回答已采纳

1回答

在Pandas DataFrame中填充FRED数据中的漏洞

python、pandas、dataframe

我的名字是Nick，我是编程新手。我最近完成了Codeacademy的使用Python分析金融数据的课程。我已经开始做我自己的一些项目，但我遇到了一个障碍。我正在使用pandas-datareader从美联储API (FRED)导入股指每日收盘价数据： import numpy as np import pandas as pd import pandas_datareader.data as web import matplotlib.pyplot as plt from datetime import datetime start = datetime(2020, 1, 1) sp

浏览 18提问于2020-04-21得票数 0

回答已采纳

1回答

TA-LIB Python金融库-在新的数据方法上的应用

ta-lib

我在日线图上对5000只股票应用了塔里布，并将结果集保存到文件/数据库中。现在，一天结束时的新数据-每只股票一行新数据到达。我们如何处理新的数据。 GIven每个指标都有自己的回看功能--目前使用默认值--我是否需要将过去X天的数据回调到pandas框架中，然后重新应用该指标，然后只保存具有TA值的最新行？或者让程序循环无限地将pandas帧保存在缓存中，然后应用TA并保存最后一行？人们可以评论一下这是如何使用的吗-每天-4小时-1小时和1分钟的间隔数据将被应用。请分享想法和代码，如果有的话，如何最好地处理这个问题。

浏览 16提问于2020-08-11得票数 0

1回答

Pandas DataFrame中的反转行值

python、pandas、dataframe

我正在处理一个pandas数据帧，我希望在每一行中找到最远的非空值，然后颠倒这些值的顺序，并输出一个行值颠倒的数据帧，而不会在第一列中留下空值。本质上颠倒了列的顺序并将非空值向左移位。在： 1 2 3 4 5 1 a b c d e 2 a b c 3 a b c d 4 a b c 输出： 1 2 3 4 5 1 e d c b a 2 c b a 3 d c b a 4 c b a

浏览 43提问于2019-08-24得票数 2

1回答

如何提取pandas数据帧的第n行作为pandas数据帧？

python、python-3.x、pandas

假设Pandas数据框如下所示： X_test.head(4) BoxRatio Thrust Velocity OnBalRun vwapGain 5 -0.163 -0.817 0.741 1.702 0.218 8 0.000 0.000 0.732 1.798 0.307 11 0.417 -0.298 2.036 4.107 1.793 13 0.054 -0.574 1.323 2.553 1.185 如何提取第三行(作为row

浏览 0提问于2017-09-20得票数 30

回答已采纳

1回答

将python脚本转换为Spotfire Python数据函数的问题

python、spotfire

我有一个非常简单的脚本，它有两个步骤：按A列和B列对数据帧进行排序，创建一个新的列(D)，该列(D)是通过在C列中用相同的值标记顺序行来生成的，并在每次行值变化时将标签增加1，从而对类似数据的所有顺序组进行标记。我的Python脚本在下面，运行得很好，我不想把它作为Python数据函数引入到Spotfire中，并且在将它连接到输入和输出参数方面有问题。原始python脚本 import pandas as pd import numpy as np df.sort_values(['ColumnA', 'ColumnB'], ascending=[True

浏览 1提问于2021-03-25得票数 0

回答已采纳

2回答

Python :丢弃重复函数-不寻常的行为

python、pandas、list、dataframe、drop-duplicates

错误-> TypeError: unhashable type：'list‘保存数据帧并再次加载后消失. 保存和加载、生成的数据帧都具有相同的dtype. 可复制-> --> import pandas as pd --> l1 = [[1], [1], [1], [1], [1], [1], [1], [1], [6], [1], [6], [1], [6], [6], [6], [6], [6], [6], [6], [6], [6]] ## len(l1) is 21 ## --> l2 = ['a']*21 --> l3

浏览 16提问于2022-01-15得票数 0

回答已采纳

1回答

如何选择多索引dataFrame中的数据并使结果dataFrame具有适当的索引

python、pandas、dataframe、indexing

我有一个多索引DataFrame，我正在尝试根据某些标准选择其中的数据，到目前为止还不错。问题是，一旦我使用.loc和pd.IndexSlice选择了我的数据，产生的dataframe在逻辑上应该在多重索引的第一级中具有更少的行和更少的元素，它保持了完全相同的multiindex，但其中的一些键引用了空的数据帧。我尝试使用新的索引创建一个全新的DataFrame，但是我的数据集的结构很复杂，并且给定级别中的元素数量并不总是相同的，因此要创建一个具有正确形状的dataFrame来放置数据并不容易。 import numpy as np import pandas as pd np.rand

浏览 14提问于2019-05-24得票数 1

回答已采纳

1回答

对EBS快照的更改会影响原始卷

amazon-web-services、amazon-ec2

我创建了EBS实例的快照，然后使用它创建卷。在那之后，我将新卷连接到一个单独的EC2实例，我希望这个新卷独立于原始卷工作，但它似乎是在原始卷上写入数据。有没有办法在AWS上做到这一点？

浏览 4提问于2018-04-20得票数 0

2回答

使用Python对DataFrame中的标头进行排序

python、header、dataframe、pandas

如何对数据帧的头部进行排序。 from pandas import * import pandas import numpy as np df2 = DataFrame({'ISO':['DE','CH','AT','FR','US'],'Country': ['Germany','Switzerland','Austria','France','United States']}) print df2

浏览 0提问于2013-05-27得票数 1

回答已采纳

1回答

同时使用pandas和PyTables (3.1.1)，重新打开已打开的文件

python、pandas、hdf5、pytables

我同时使用pandas和pytables (3.1.1)。问题是我已经打开了一个包含pytables的HDF5文件，当我尝试使用pandas创建一个新的HDF5Store时 hdf5store = HDFStore(...) 我得到以下错误： File "/home/travis/virtualenv/python2.7_with_system_site_packages/local/lib/python2.7/site-packages/pandas/io/pytables.py", line 281, in __init__ self.open(mode=mod

浏览 2提问于2014-05-21得票数 4

3回答

pandas:将数据帧拆分为多个csvs

python-3.x、pandas

我有一个大文件，导入到Pandas中的单个数据帧中。我使用pandas根据数据帧中的行数将文件拆分成多个段。例如: 10行:文件1获取0:4文件2获取5:9 有没有一种方法可以做到这一点，而不必创建更多的数据帧？

浏览 0提问于2017-11-22得票数 2

1回答

如何用层次指数计算大熊猫的平均数

python-3.x、pandas

我有一个具有1mi行和分层索引(国家、州、城市，按此顺序)的pandas数据帧，每行都有一个产品的价格观察。我如何计算每个国家、州和城市的均值和标准差(请记住，由于我的df很大，我正在避免循环)？对于每个级别的均值和标准差，我希望将值保存在此数据框中的新列中，以供将来访问。

浏览 16提问于2017-06-23得票数 1

回答已采纳

2回答

为R中dataframe中的每一行数据创建哈希值

database、r、hash

我正在探索如何更有效地比较R中的两个数据帧，并且我提出了散列。我的计划是使用digest包中的digest为具有相同列的两个数据帧中的每一行数据创建哈希，我认为哈希对于任何两个相同的数据行都应该是相同的。我尝试使用下面的代码为每一行数据提供唯一的散列： for (loop.ssi in (1:nrow(ssi.10q3.v1))) {ssi.10q3.v1[loop.ssi,"hash"] <- digest(as.character(ssi.10q3.v1[loop.ssi,])) print(paste(loop.ssi,nrow(ssi.10q

浏览 1提问于2011-02-23得票数 5

回答已采纳

2回答

Pandas crosstab()函数与包含NaN值的数据帧的混淆行为

python、pandas、dataframe、nan、crosstab

我使用的是Python 3.4.1和numpy 0.10.1和pandas 0.17.0。我有一个很大的数据框架，列出了每种动物的种类和性别。这是一个真实的数据集，不可避免地会缺少由NaN表示的值。数据的简化版本可以生成为： import numpy as np import pandas as pd tempDF = pd.DataFrame({ 'id': [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20], 'species': ["dog"

浏览 1提问于2015-10-23得票数 12

2回答

pandas等同于R的cbind (垂直连接/堆叠向量)

python-3.x、pandas、concat、cbind

假设我有两个数据帧： import pandas .... .... test1 = pandas.DataFrame([1,2,3,4,5]) .... .... test2 = pandas.DataFrame([4,2,1,3,7]) .... 我尝试过test1.append(test2)，但它相当于R的rbind。如何将这两列合并为数据帧的两列，类似于R中的cbind函数？

浏览 4提问于2015-02-19得票数 45

回答已采纳

4回答

按值对拆分pandas中的数据帧

python、pandas

我有以下数据框： id value curr1 curr2 06263100612 136.91 EUR RUB 06337100254 822.23 EUR BGN 06341101120 2508.37 RUB BGN 06260101780 373.33 EUR BGN 07110100385 3829.60 USD BGN 06242101069 742.84 EUR GBP 06229100016 742.84 EUR BGN 我希望将数据帧拆分为几个数据帧，以便在每个数据帧中都有一对cur

浏览 16提问于2017-08-09得票数 1

回答已采纳

0回答

无法将excel行与pandas dataframe行数匹配

python、python-3.x、pandas、unicode

我尝试对文件中的Unicode字符进行编码，并将其传递到pandas数据帧中。但是，我在Jupyter notebook中使用df.column.value_counts()获得的唯一行数与同一文件的excel行数不匹配(在删除重复值之后)。我如何解决这个问题？我加载了一个文本文件(以制表符分隔)，并使用encoding = 'ISO-8859-1‘将其转换为pandas数据帧。创建数据帧时，其中一列的唯一行数为66370。当我在原始csv文件上的所需列上应用‘删除重复项’时(我正在使用MS Excel读取导出文件)，唯一值的数量= 66368。这两个文件- Jupyter N

浏览 13提问于2019-01-21得票数 0

1回答

使用相关矩阵中的目标变量列填充Python Pandas Dataframe

python、pandas、dataframe、class、correlation

我有一个由不同数据类型的45个变量组成的pandas数据框架，我正在使用'dython.nominal‘包来创建每个变量之间的关联矩阵。然后我想：答:子集我的数据帧(按地理位置过滤)，并在该子集上计算关联矩阵，然后 B:使用在步骤A中创建的数据帧中的目标变量的列，创建第二个pandas数据帧并添加到第二个pandas数据帧中。然后，得到的数据帧将是一个相关性矩阵，其中列索引是地理位置，行索引是其他44个变量。到目前为止，我拥有的代码是： import pandas as pd from dython.nominal import compute_associations t

浏览 0提问于2020-10-26得票数 2

2回答

在大型数据集中是否有两个日期之间的假期？

python、pandas、numpy、data-science

我正在处理一个数据集，该数据集有大约2600万行和13个列，其中包括两个datetime列arr_date和dep_date。我正在尝试创建一个新的布尔列，以检查在这些日期之间是否有任何美国假日。我正在对整个dataframe使用apply函数，但是执行时间太慢。代码已经在Goolge平台上运行了超过48个小时(24 on内存，4核)。有更快的方法吗？数据集如下所示：我使用的代码是- import pandas as pd import numpy as np from pandas.tseries.holiday import USFederalHolidayCalendar as ca

浏览 0提问于2019-07-07得票数 1

回答已采纳

1回答

除非满足另一个列条件，否则从数据帧中排除行

python、pandas、logic

我想从我的数据帧中排除满足列表(eligibility_criteria)条件的行，除非关税列以‘*’开头。这就是我所拥有的： import pandas as pd df = df[~df['eligibility'].str.contains(eligibility_criteria, na=False)] #This works 我如何添加这个'except‘限定符... #df['tariff'].str.startswith("***")

浏览 20提问于2019-05-14得票数 3

回答已采纳

2回答

在二进制级别对相同文件进行比较后，对这些文件进行分组

python、pandas

我有一个文件列表，我需要将它们分组到相同的文件组中。例如，我有如下文件 File1 File2 File3 File4 File5 File6 File7 File8 我使用了filecmp.cmp()和for循环来遍历文件列表，将所有文件与所有文件进行比较，并将结果转储到一个数据帧中。然后，我对数据帧进行了过滤，得到了一个子集数据帧，其中只包含在Col1和Col2中相同的一对文件。例如，请参见下面的内容。它显示了File1 == File2、File1 == File3等现在，我想对相同的文件进行分组。我需要添加一个名为' group‘的列，它为相同的文件显示相同的组号。第

浏览 2提问于2018-07-11得票数 0

5回答

pandas中两个数据帧之间的差异

python、pandas、merge、compare、diff

我有两个数据帧，它们都有相同的基本模式。(4个日期字段、几个字符串字段和4-5个浮点型字段)。叫它们df1和df2。我想要做的基本上是得到两个数据帧的“不同”--在这里我得到所有没有在两个数据帧之间共享的行(不是在集合交集中)。请注意，这两个数据帧的长度不必相同。我尝试使用pandas.merge(how='outer')，但我不确定要传递哪个列作为“键”，因为确实没有键，而且我尝试的各种组合都不起作用。df1或df2可能有两行(或更多行)相同。在pandas/Python中做这件事的好方法是什么？

浏览 0提问于2017-11-06得票数 7

1回答

从excel创建Dataframe

python、pandas

我正在尝试导入excel并使用pandas read_excel函数创建数据帧。问题是，我只需要使用从excel开始的C到F列和第17行。如何在pandas中仅选择excel文件的那部分并将其转换为数据帧？谢谢！

浏览 0提问于2020-03-21得票数 0

1回答

使用pandas数据帧修改csv中的数据

python、pandas、csv

我有一个这样的结构；用来创建一个pandas数据帧： my_dict = { 'name' : ["joe", "jack", "jill", "joan", "jesse","jacob", "jonas"], 'age' : [20,27, 35, 55, 18, 21, 35], 'designation': ["VP", "CEO

浏览 6提问于2019-07-15得票数 0

回答已采纳