pandas dataframe根据另一列的聚合过滤具有关键字的列_如何根据pandas dataframe中的特定值过滤列_Dataframe中的Pandas中的聚合列 - 腾讯云开发者社区

python、dataframe、filtering、dask、fastparquet

我正在尝试使用dask read_parquet方法和filters kwarg读取拼图文件。然而，有时它不会根据给定的条件进行过滤。示例:使用dates列创建和保存数据框架 import pandas as pd import numpy as np import dask.dataframe as dd nums = range(1,6) dates = pd.date_range('2018-07-01', periods=5, freq='1d') df = pd.DataFrame({'dates':dates, 'num

浏览 0提问于2018-07-09得票数 8

回答已采纳

1回答

pandas -获取重复行的计数(跨多列匹配)

pandas

我有一个类似下面的表-唯一的ID和名称。我想返回任何重复的名字(基于匹配的第一个和最后一个)。 Id First Last 1 Dave Davis 2 Dave Smith 3 Bob Smith 4 Dave Smith 如果我没有ID列，我已经设法返回了所有列的重复计数。 import pandas as pd dict2 = {'First': pd.Series(["Dave", "Dave", "Bob"

浏览 192提问于2019-12-08得票数 1

回答已采纳

2回答

查找熊猫Dataframe列的唯一行，第二列的所有值都是NaN

python、pandas、dataframe、pandas-groupby

嗨，我在努力解决以下问题：给定包含name和variable列的数据文件，我想创建两个列表： list_names_nan包含变量列中所有值都为nanlist_names_not_nan的名称，其中包含变量列中列表1中的值不是nan的名称。下面是一个例子 import pandas import numpy df = pandas.DataFrame(data=[['x',1],['y',2],['x',4],['z',numpy.nan], ['x',

浏览 6提问于2020-07-15得票数 3

回答已采纳

1回答

如何使不同的列在holoviews / hvplot中呈现为不同的颜色？

pandas、holoviews

我有一个包含两列时间序列数据的pandas数据帧。在我的实际数据中，这些列足够大，如果没有数据着色器，渲染就会很笨拙。我正在尝试比较这两个时间序列中的事件。但是，我需要能够分辨出哪个数据点来自哪个列。下面是一个简单的函数示例。如何让A列和B列使用不同的颜色映射？ import numpy as np import hvplot.pandas import pandas as pd A = np.random.randint(10, size=10000) B = np.random.randint(30, size=10000) d = {'A':A,'B'

浏览 19提问于2019-01-12得票数 0

回答已采纳

1回答

如何在dask中执行group-by聚集后保留分区

python、pandas、dataframe、distributed、dask

在我的应用程序中，我使用groupby对dask数据帧执行聚合，并按某个id排序。但是，我希望聚合保持分区划分，因为我打算执行与其他相同分区的数据帧的连接。 import pandas as pd import numpy as np import dask.dataframe as dd df =pd.DataFrame(np.arange(16), columns=['my_data']) df.index.name = 'my_id' ddf = dd.from_pandas(df, npartitions=4) ddf.npartitions #

浏览 0提问于2018-02-17得票数 4

1回答

Python Pandas识别错误数据

python、pandas、csv

我有一个用逗号分隔的csv文件，每行有215列。文件非常大，我使用pandas dataframe pd.read_csv()和块来读取数据。文件中的一行有214列，而不是215列，但dataframe读取数据时将NaN应用于最后一列。有没有办法在pandas dataframe中标识此行，因为我更喜欢dataframe而不是csv_reader。注意:最后一列也可以为null，因此按等于null的最后一列过滤数据帧将不起作用

浏览 19提问于2020-09-30得票数 0

2回答

Julia pandas语法select values from conditional

pandas、syntax、julia

在Python的pandas中，如果我有一个具有n列的DataFrame，并且我想将满足某些条件的行保留在特定的列中，我只需输入：df[df.column1 > 0]，我找不到在Julia pandas中执行此操作的正确语法。

浏览 2提问于2017-11-29得票数 0

2回答

在R中是否有类似于complete.cases的等效Python函数

python、pandas

我正在删除pandas数据框架中的一些记录，该数据框架在4列框架中包含不同的NaN组合。我已经创建了一个名为complete_cases的函数来提供满足以下条件的行的索引:行中的所有列都是NaN。我已经尝试过下面的函数： def complete_cases(dataframe): indx = [] indx = [x for x in list(dataframe.index) \ if dataframe.loc[x, :].isna().sum() == len(dataframe.columns)] retu

浏览 32提问于2019-07-30得票数 1

2回答

如何分组大熊猫的数据，列出痕迹？

python、pandas、dataframe、pandas-groupby

我有如下的样本数据 import pandas as pd data_dict = {"Col_1" : ["AB", "AC", "AD", "BD", "BC", "BW", "KA", "KB", "KK", "KL"], "Col_2" : [1,2,1,2,2,1,1,1,2,2,]} data = pd.DataFrame(data_dict) Col_1 C

浏览 4提问于2021-08-01得票数 2

回答已采纳

1回答

使用带有Pandas数据透视表的string类型列操作dataframe时出错

python、pandas、string、dataframe、pivot-table

我有数据：我想利用数据透视表或另一种函数来获得这个结果：我试图使用Pandas的数据透视表函数将Custom列的行转换为列，并得到一个错误： import pandas as pd data = { "Custom Field": ["CF1", "CF2", "CF3"], "id": ["RSA", "RSB", "RSC"], "Name": ["Wilson", "Junior", &#

浏览 0提问于2022-07-14得票数 1

回答已采纳

5回答

Pandas使用动态列名进行聚合

python、pandas、aggregate、pandas-groupby

我有一个脚本，它生成一个具有不同数量的值列的pandas数据框。例如，此df可能是 import pandas as pd df = pd.DataFrame({ 'group': ['A', 'A', 'A', 'B', 'B'], 'group_color' : ['green', 'green', 'green', 'blue', 'blue'], 'val1': [5, 2, 3

浏览 67提问于2019-09-18得票数 22

回答已采纳

1回答

如何过滤Pandas对象并获取GroupBy对象？

python、pandas

当对Pandas操作的结果执行筛选时，它返回一个数据。但是如果我想要做更多的组计算，我必须再次调用groupby，这似乎有点接近。有没有一种更地道的方法来做到这一点？编辑：为了说明我说的是什么我们无耻地从潘达斯的文档里偷了一个玩具数据，然后分组： >>> dff = pd.DataFrame({'A': np.arange(8), 'B': list('aabbbbcc')}) >>> grouped = dff.groupby('B') >>> type(grouped

浏览 7提问于2016-03-06得票数 13

1回答

如何获取" value“列的平均值，该列根据另一列的值拆分成组

python、pandas

我想以一个简单的数据帧为例，根据另一列("name“列)中的值，将一列(" value”列)求和成组。在那之后，我想得到"value“列的平均值 In [1]: import pandas In [2]: df = pandas.DataFrame(data = [{'name': 'a', 'val': 1}, {'name': 'b', 'val': 2}, {'name': 'b', 'val': 4}]) In [3

浏览 5提问于2021-03-03得票数 0

回答已采纳

2回答

Pandas:按满足条件的列分组

python、pandas、dataframe、group-by、pandas-groupby

我有一个包含三列的数据集: rating、breed和dog。 import pandas as pd dogs = {'breed': ['Chihuahua', 'Chihuahua', 'Dalmatian', 'Sphynx'], 'dog': [True, True, True, False], 'rating': [8.0, 9.0, 10.0, 7.0]} df = pd.DataFrame(data=dogs) 我想计算每个品种的平均

浏览 97提问于2018-06-03得票数 5

回答已采纳

2回答

基于另一列的Python按值分组和排除值

python、pandas、dataframe

我有一个包含三个列ID、Col1和Col2的dataframe。我希望按ID和Col1对df进行分组，并删除所有低于Col2中值的Col1值。 import pandas as pd df = pd.DataFrame({'ID': ['A', 'A', 'A', 'A', 'B', 'B', 'B']}, {'Col1': [0, 1, 2, 4, 0, 1, 2]}, {&#

浏览 1提问于2018-07-24得票数 2

回答已采纳

3回答

使用pandas GroupBy.agg()对同一列进行多个聚合

python、pandas、dataframe、aggregate、pandas-groupby

pandas有没有一种内置的方法，可以在同一列df["returns"]上应用两个不同的聚合函数f1, f2，而不必多次调用agg()？示例数据帧： import pandas as pd import datetime as dt import numpy as np pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 *

浏览 0提问于2012-09-26得票数 190

回答已采纳

1回答

pandas应用于每列/行的不同参数

python、pandas、rolling-computation、rolling-average

假设我有一个M(行)乘N(列)的dataFrame df = pandas.DataFrame([...]) 和一个长度为N的向量 windows = [1,2,..., N] 我想将移动平均函数应用于df中的每一列，但希望每列的移动平均长度不同(例如，column1的MA长度为1，列2的MA长度为2，等等)-这些长度包含在windows中有没有内置的函数可以快速做到这一点？我知道df.apply(lambda a: f(a), axis=0, args=...)，但不清楚如何为每个列应用不同的参数

浏览 2提问于2018-03-08得票数 0

4回答

在pandas中过滤GroupBy之后的组，同时保留这些组

python、pandas、pandas-groupby

在pandas中，我想要做的是：df.groupby('A').filter(lambda x: x.name > 0) - group by列A，然后过滤名称为non positive的组。但是，当GroupBy.filter返回DataFrame时，这会取消分组，从而丢失分组。我想按这个顺序来做，因为它应该对计算要求较低，因为filter后面跟着groupby会遍历DataFrame两次，不是吗(首先过滤，然后分组)？此外，克隆分组中的组(到字典或其他东西)将失去无缝返回到数据帧的功能(就像在.filter的示例中，您直接获取DataFrame)。谢谢示例：

浏览 3提问于2018-04-14得票数 12

1回答

熊猫在没有NAs的情况下放行/用NAs保持行

python、pandas、indexing

我有一个在某些单元格中缺少值的数据格式。我希望保留任何列中有空的行。这与pandas.DataFrame.dropna()正好相反。 import pandas as pd import numpy as np df = pd.DataFrame({'a': [1,2], 'b': [np.nan, 4]}) df a b 0 1 NaN 1 2 4.0 预期结果： a b 1 2 4.0 我想以方法链式的方式来做，所以这样的方法是很理想的： df.loc[lambda x: ...] df.keepna(how='

浏览 0提问于2018-04-08得票数 0

回答已采纳

1回答

如何在python中基于两种条件进行合并？

python、pandas、merge

我想使用复合ID (car，ID)创建一个连接，如果两个ID在第一个df上都匹配，则使用test列值创建一个新列 # Import pandas library import pandas as pd # initialize list of lists data1 = [['ford', 1010], ['chevy', 1515], ['toyota', 1515]] # Create the pandas DataFrame df_1 = pd.DataFrame(data1, columns = ['Car

浏览 8提问于2021-02-05得票数 0

回答已采纳

2回答

对具有重复列的多个行求和

python、pandas

请考虑以下数据帧 df = pd.DataFrame({'a': [1,2,1,3,4,2], 'c':['dd','ee','dd','as','ae','ee'], 'count':[5,9,1,6,8,3]}) a c count 0 1 dd 5 1 2 ee 9 2 1 dd 1 3 3 as 6 4 4 ae 8 5 2 ee 3 如你所见，&#

浏览 0提问于2017-01-04得票数 6

回答已采纳

1回答

根据列中的值，有条件地聚合具有不同函数的分组数据框

python、pandas

考虑下面的Pandas数据帧。 import pandas as pd df = pd.DataFrame({"val":[1, 2, 3, 10, 20, 30, 40], "group_id":["ones", "ones", "ones", "tens", "tens", "tens", "tens"], "condition":["sum&#

浏览 21提问于2021-01-24得票数 1

回答已采纳

2回答

将‘`skipna`’参数传递给‘`agg`’

python、pandas、dataframe、numpy、aggregate

当我在一个skipna=False上使用agg方法时，我想设置DataFrame。我的DataFrame有许多(动态)列。我正在执行groupby并使用agg进行聚合，如 import pandas as pd import numpy as np df = pd.DataFrame({"A": [1, 2], "B": [np.nan, np.nan], "C": [0, 0]}) # the sum of B is 0.0 df.agg({"A": "sum", "B": "sum&

浏览 8提问于2022-09-07得票数 4

1回答

如何在熊猫中搜索多个多词短语？

python、pandas

我有一些JSON数据转换成一个熊猫DataFrame。我希望找到其字符串内容匹配多词短语列表的所有列。我正在使用大量的Twitter JSON数据 (因此Twitter API的使用不适用)。这个JSON被转换成一个Pandas DataFrame。其中一个可用的列是text，它是tweet的主体。一个例子是 We’re kicking off the first portion of a citywide traffic calming project to make residential streets more safe & pedestrian-friendly, next

浏览 11提问于2019-07-29得票数 0

1回答

熊猫DataFrame:重复ID块中的聚合值

python、pandas、dataframe、group-by、aggregate

给定一个ID列和相应值列的DataFrame，我如何在重复ID块中聚合(例如和)值？示例DF： import numpy as np import pandas as pd df = pd.DataFrame( {'id': ['a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'a', 'a', 'b', 'a', 'b',

浏览 1提问于2020-06-03得票数 3

回答已采纳

2回答

将一个pandas数据帧中的值替换为另一个数据帧中的值

python、pandas、merge

我必须将一个数据帧中的值替换为另一个数据帧中的值。下面的示例可以工作，但我有额外的步骤，以便用"new“列中的值替换"first”列中的值，然后删除"new“列。 In [1]: import pandas as pd In [2]: df = pd.DataFrame([['A', 'X'], ...:

浏览 17提问于2019-02-06得票数 2

1回答

熊猫将一些列值转换为行。

python、python-3.x、pandas、numpy、dataframe

我有一个Pandas DataFrame df，如下所示：我希望它们以这种格式出现：丢失SignalName列。我需要这种格式，因为我必须绘制时间和SDLxvalues。我认为它需要某种迭代器，我试过融化，但没有工作。

浏览 0提问于2020-12-07得票数 1

回答已采纳

1回答

pandas分组数据帧的最大值返回空白断言错误

python、pandas

当我试图找到分组数据帧的最大值时，我得到了下面的错误。我在这个数据框中有几十列，我知道有一列或更多列导致了这个问题。但我不知道是哪一个。请不要强迫我去解决这个问题。什么数据类型会导致此问题？是什么导致断言错误为空？原始代码： preclin.groupby(['StudyLocation', 'StudyID', 'ProductLotNo', 'ProductLotNoDetails', 'Do

浏览 20提问于2020-05-07得票数 0

1回答

在熊猫中重采样同时保持价值关联

python、datetime、pandas

首先是这样的东西： from pandas import DataFrame time = np.array(('2015-08-01T00:00:00','2015-08-01T12:00:00'),dtype='datetime64[ns]') heat_index = np.array([101,103]) air_temperature = np.array([96,95]) df = DataFrame({'heat_index':heat_index,'air_temperature':air_tem

浏览 3提问于2015-08-12得票数 6

回答已采纳

4回答

如何检查Pandas中是否存在列

python、pandas、dataframe

有没有办法检查一列是否存在于Pandas DataFrame中？假设我有以下DataFrame： >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)],

浏览 3提问于2014-07-22得票数 443

回答已采纳

1回答

pandas groupby count字符串出现在列上

python、pandas、count、group-by、dataframe

我想计算一个分组的pandas dataframe列中字符串的出现次数。假设我有以下数据帧： catA catB scores A X 6-4 RET A X 6-4 6-4 A Y 6-3 RET B Z 6-0 RET B Z 6-1 RET 首先，我想按catA和catB分组。对于这些组中的每个组，我希望在scores列中计算RET的出现次数。结果应该如下所示： catA catB RET A X 1 A

浏览 1提问于2015-07-27得票数 13

回答已采纳

1回答

熊猫如何传递DataFrame.assign参数来添加多个新列？

pandas、assign

如何使用返回添加多个新列的原始DataFrame 的副本？预期结果： df = pd.DataFrame({'A': range(1, 5), 'B': range(11, 15)}) >>> df.assign({'C': df.A.apply(lambda x: x ** 2), 'D': df.B * 2}) A B C D 0 1 11 1 22 1 2 12 4 24 2 3 13 9 26 3 4 14 16 28 上述例子的结果是： Valu

浏览 2提问于2017-02-07得票数 22

回答已采纳

1回答

如何使用运算符链接项目列表

python、pandas

场景我想过滤熊猫的数据。它应该返回包含列列表中有数值的所有行的数据，列表的长度是任意的。示例 a b c 1 1 1 1 2 1 g 8 3 h 1 1 4 2 2 2 如果我用列b、c调用我的函数，我期望行1、3和4；如果我用列a调用我的函数，那么我期望行1、2和4。。我想出了这样一个实现，它感觉不像奏鸣曲，但很有效： import typing import pandas as pd def filter_df(dataframe: pd.DataFrame, filter_columns

浏览 1提问于2022-11-07得票数 1

回答已采纳

1回答

Spark Scala -如何迭代dataframe中的行，并将计算值添加为数据框的新列

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个包含两列"date“和"value”的dataframe，如何在dataframe中添加两个新列"value_mean“和"value_sd”，其中"value_mean“是过去10天(包括”date“中指定的当天)的平均值，"value_sd”是过去10天内"value“的标准差？

浏览 0提问于2016-02-12得票数 4

1回答

如何过滤Coulmns，即使列中的单个值不是NaN

python、pandas、dataframe、filter、pycharm

我有一个500行502列的Pandas Dataframe，下面是列名的简要概述： ['cluster', 'question1', 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, ....,500] Cluster - Cluster Number Question1 -表示文本数据列(0- 500) -包含500个问题中每个问题彼此之间的余弦相似值。对于每个问题，我只想过滤那些余弦值>0.5(假设x)和<1的行以及其他任何问题。我已经尝试了下面这组代码来过滤数据 filter_boolean = final_df[(fin

浏览 4提问于2019-10-21得票数 0

1回答

Python:函数中的一个新列名()

python、pandas、function、dataframe

在下面的代码中，我创建了一个函数来返回一个DataFrame，其中包含一个新列new_col，其值为ori_col。但是，输出的新列名为new_col，而不是B。我在这里错过了什么？ import pandas as pd def add_col_diff(dframe, ori_col, new_col): shift_1 = dframe[ori_col].shift(1) return dframe.assign(new_col=shift_1) data = {'A': [10, 11, 12]} df = pd.DataFrame.from_dic

浏览 0提问于2018-12-29得票数 2

回答已采纳

2回答

在熊猫群中做多重计算

python、pandas、dataframe

据我所知，每次我们在熊猫的数据上做groupby，我们只能做一个计算，例如列的平均值。我们如何在熊猫的一个groupby中进行多重计算(就像我们在SQL中所做的那样)。例如，对于dataframe： import pandas as pd times = [21 , 34, 37, 40, 55, 65, 67, 84, 88, 90 , 91, 97, 104,105, 108] names = ['bob', 'alice', 'bob', 'bob' , 'ali', 'alice', &

浏览 4提问于2020-11-04得票数 1

回答已采纳

2回答

熊猫如何在agg功能完成后将柱子扁平化？

python、pandas

假设我有一个df： data=[('a', 1), ('a', 1),('b', 1),('a', 3),('b', 2),('c', 1),('a', 2),('b', 3),('a', 2)] df=df=pd.DataFrame(data, columns=['project', 'duration']) # Then I made an aggregation: df_agg=df.groupby('p

浏览 2提问于2020-03-10得票数 4

回答已采纳

2回答

熊猫基于字符串长度的DataFrame.query过滤字符串数据

python、string、pandas、dataframe

这个问题非常类似于这个问题，但我想使用pandas.DataFrame.query。假设我们有一个pandas.DataFrame。我喜欢使用A筛选列A的字符串长度不等于3的行。 import pandas as pd import numpy as np df = pd.DataFrame({'A' : ['hi', 'hello', 'day', np.nan], 'B' : [1, 2, 3, 4]}) df.query('A.str.len() != 3') 但是，我得到了以下错误 Ty

浏览 2提问于2018-08-29得票数 3

回答已采纳

2回答

如何在Pandas组中进行分组和合计

python、pandas

您好，我有以下DataFrame： # Import pandas library import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # initialize list of lists data = [['tom', 10,1], ['nick', 15,0], ['tom', 14,1], ['jason', 15,0], ['nick', 18,1], ['jaso

浏览 7提问于2020-06-22得票数 0

回答已采纳

3回答

Pandas:当列包含numpy数组时聚合

python、numpy、pandas、aggregation

我使用的是pandas DataFrame，其中一列包含numpy数组。当尝试通过聚合对该列求和时，我得到一个错误，声明‘必须生成聚合值’。例如： import pandas as pd import numpy as np DF = pd.DataFrame([[1,np.array([10,20,30])], [1,np.array([40,50,60])], [2,np.array([20,30,40])],], columns=['category','arraydata']) 这是我所期

浏览 0提问于2013-06-07得票数 11

回答已采纳

1回答

Bokeh或全息视图: BarChart按降采样日期、时间到月/年/等

python-3.x、pandas、bokeh、holoviews

我有一只熊猫数据图(通常用全息图包装)，它有三列。Col1是一个日期时间，Col2是绝对字符串(即“猫”、“狗”、“鸟”之一)，Col3是整数计数。我试图找到一种方法，使用bokeh库将日期时间降为数月、季度、年份等，类似于pandas.DataFrame.groupby(pd.Grouper(key='Date'，或pandas.DataFrame.resample freq=sample中可用的)。有没有人知道是否有土生土长的bokeh才能做到这一点，或者我是否需要提供已经从熊猫身上采集到的所有数据？谢谢!

浏览 0提问于2018-05-02得票数 0

回答已采纳

1回答

如何在python变量名中以"#“开头？

python、special-characters

我已经编写了几个步骤来处理一些文件(如果您很好奇，但这与我的问题无关：)的代码，为其他人编写的软件分析它们做好准备。这对于使用上述软件进行分析是必要的。现在，我正在尝试使用pandas DataFrame，稍后我打算将其写入文本文件。我还试图通过键入\#来转义这个特殊字符，但是它会报错：“SyntaxError: unexpected character after line continuation character.有人知道如何解决这个问题吗?这样我就可以用一个#字符作为结果数据库的标题行了。” import pandas as pd I_notid_lst = ["1

浏览 1提问于2014-06-20得票数 0

2回答

Python:根据特定值将列拆分为串联行

python、python-3.x、pandas、dataframe

我肯定有人曾问过这样的问题，但我目前的努力并没有找到解决办法。我有一列文本值，例如： import pandas as pd df2 = pd.DataFrame({'text':['a','bb','cc','4','m','...']}) print(df2) text 0 a 1 bb 2 cc 3 4 4 m 5 ... “text”中的列由字符串、in、floats和nan类型数据组成。我试图将文本列中的每个数字(int/float)中

浏览 8提问于2021-12-23得票数 1

回答已采纳

1回答

在星火数据中遍历列并计算最小最大值。

scala、apache-spark、apache-spark-sql、spark-streaming、spark-dataframe

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。 val parquetRDD = spark.read.parquet("filename.parquet") parquetRDD.collect.foreach ({ i => parquetRDD_subset.agg(max(parquetRDD(parquetRDD.colum

浏览 3提问于2017-07-18得票数 0

回答已采纳

1回答

尝试将数据帧的特定列发送到新的csv文件，但始终返回空数据帧

python、pandas、dataframe、csv

这是我的代码： import pandas as pd df = pd.read_csv('E:/cnpj/socios.csv', quotechar='"', sep=',', usecols=["cnpj", "nome_socio"], warn_bad_lines=True, error_bad_lines=False, low_memory=False, nrows=100000) #df.set_index(['cnpj'], inplace=True) print (df.

浏览 7提问于2021-02-20得票数 0

回答已采纳

2回答

如何将专门找到的(OCR)文本添加到列表中并将其写入excel文件？[pytesseract]

python、machine-learning、ocr

我想通过pytesseract从许多PNG/JPEG文件中提取某些信息，如果可能的话，将它们写入excel文件。我已经知道了如何从图片中提取文本，但我还没有弄清楚的是： 1)如何提取特定信息而不是整个单词？例如，我想要每张照片的账号和参考号码，其他什么都不要。 2)如何将这些账号和参考号写入excel等外部文件？我将把我目前掌握的内容附加到下面：我听说使用pandas dataframe是将数据追加到Excel列中的好方法，但我不确定对于这样的任务是否可以做到这一点。 from PIL import Image import pytesseract import pandas as p

浏览 47提问于2019-02-11得票数 0

1回答

熊猫有错误的情节:风格不适用

python、pandas

我有Pandas (0.14.1版) DataFrame对象，如下所示 import pandas as pd df = pd.DataFrame(zip([1, 2, 3, 4, 5], [0.1, 0.3, 0.1, 0.2, 0.4]), columns=['y', 'dy']) 它回来了 y dy 0 1 0.1 1 2 0.3 2 3 0.1 3 4 0.2 4 5 0.4 其中第一列是值，第二列是错误。

浏览 3提问于2014-09-07得票数 7

回答已采纳

1回答

Pandas聚合特定列

python、python-3.x、pandas、numpy

如何仅聚合pandas中的特定列？ import numpy as np df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [1, 2, 3, 4], 'C': np.random.randn(4)}) df.groupby('A').agg(['max']) #works as expected, but gives values for col B & C df.groupby('A&

浏览 0提问于2018-03-06得票数 0

2回答

熊猫群-附加列表

python、pandas

我的熊猫DataFrame和lists dtype有一个专栏。我想要Group By和聚合DataFrame并附加列表。下面是一个示例DataFrame： import pandas as pd df = pd.DataFrame({ 'id': [1, 1, 2], 'cat': ['A','A','B'], 'lst': [['l0','l1',&

浏览 2提问于2022-05-18得票数 0