Pandas DataFrame:更改列值？_Pandas DataFrame:更改列值_根据dataframe中的其他列更改pandas dataframe列值 - 腾讯云开发者社区

python、pandas、dataframe、nan

我正在尝试在一个pandas DataFrame中生成一个新列，该列与另一个pandas DataFrame中的值相等。当我尝试创建新列时，我只得到新列值的NaNs。首先，我使用API调用来获取一些数据，'mydata‘DataFrame是按日期索引的一列数据。 mydata = Quandl.get(["YAHOO/INDEX_MXX.4"], trim_start="2001-04-01", trim_end="2014-03-31", collapse

浏览 1提问于2014-10-07得票数 26

回答已采纳

1回答

变量用于不同任务时的Python内存使用情况

python、memory-management

我正在与pandas在ETL管道中工作，并且我正在超出我的计算机的内存使用量。我正在阅读Python中的内存使用情况，当我创建一个pandas Dataframe时，我不明白内存使用是如何工作的，我为这个Dataframe指定了一个名称，并且我使用相同的名称进行一些转换或向其中添加更多列。例如： df = pd.DataFrame( { 'column1': [1,2] ,'column1': ['a','b']}) 如果现在我想要向此Dataframe添加另一列： df['column3'] = 1 用于第一

浏览 1提问于2020-11-23得票数 0

1回答

如何有选择地更新Pandas dataframe中的值的子集？

python、pandas、dataframe

我有一个pandas dataframe，我想根据某一列的值更新另一列的值，具体地说，我想这样做(data是一个pandas dataframe，它有3列'Depth'，'A'，'B‘ data['A'] = data['B'] = 0.0 data.loc[:,data.Depth == 'A'].Topsoil = 1.0 data.loc[:,data.Depth == 'B'].Subsoil = 1.0 然后我得到了错误消息： IndexingError: Unalignable

浏览 10提问于2019-04-04得票数 0

1回答

为什么pandas DataFrame.iloc返回的是类别数据类型的标量，而是对象数据类型的系列？

python-3.x、pandas

在pandas 0.23.0和python 3.6.5中，我看到了在DataFrame上使用iloc[int]时不理解的行为。如果DataFrame只有一列，并且该列的类型是“category”，则iloc[int]将返回标量值而不是系列。当"answer“列是一个对象数据类型时，我会得到一个预期的Series： >>> df = pandas.DataFrame({'answer': ['no', 'no', 'yes']}) >>> df['answer'] =

浏览 1提问于2018-08-24得票数 0

2回答

根据另一列中的特定值对一列中的值求和

python、pandas、sum

例如，我在Pandas中有一个DataFrame： df = pd.DataFrame("a":[0,0,1,1,0], "penalty":["12", "15","13","100", "22"]) 我如何求和“惩罚”列中的值，但我只想对列"a“中值为0的”惩罚“列中的这些值求和？

浏览 14提问于2019-11-21得票数 1

1回答

Python Pandas识别错误数据

python、pandas、csv

我有一个用逗号分隔的csv文件，每行有215列。文件非常大，我使用pandas dataframe pd.read_csv()和块来读取数据。文件中的一行有214列，而不是215列，但dataframe读取数据时将NaN应用于最后一列。有没有办法在pandas dataframe中标识此行，因为我更喜欢dataframe而不是csv_reader。注意:最后一列也可以为null，因此按等于null的最后一列过滤数据帧将不起作用

浏览 19提问于2020-09-30得票数 0

1回答

如何检查Pandas Dataframe列是否包含值？

pandas

我想检查pandas.DataFrame列是否包含特定值。例如，这个玩具Dataframe在"two"列中有一个"h" import pandas as pd df = pd.DataFrame( np.array(list("abcdefghi")).reshape((3, 3)), columns=["one", "two", "three"] ) df one two three 0 a b c 1 d e f 2 g h i

浏览 1提问于2021-11-12得票数 0

2回答

pandas.DataFrame.assign:如何引用新创建的列？

python、python-3.x、pandas、dataframe

我试图在Pandas 1.5.2中使用pandas.DataFrame.assign。让我们考虑一下下面的代码，例如： df = pd.DataFrame({"col1":[1,2,3], "col2": [4,5,6]}) df.assign( test1="hello", test2=df.test1 + " world" ) 我正面临这个错误： AttributeError: DataFrame对象没有属性“test1” 但是，它明确指出：可以在同一个assign中分配多个列。**kwargs中的

浏览 1提问于2022-11-28得票数 1

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

python、pandas、apache-spark、pyspark

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。我试着用这个方法构造矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。 coocc = psdf.T.dot(psdf) coocc 我得到了这个错误 TypeError: Unsupported type DataFrame 我查过医生了。 pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将py

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

基于dict创建组合列的熊猫功能

python、pandas、dataframe、dictionary

我试图在pandas.DataFrame中创建一个加权列我有一个python dictionary，键是pandas.DataFrame列名，值是相应的权重。我想创建一个基于dictionary和引用pandas.DataFrame列值加权的新列。考虑到我的dictionary配置会改变并包含“错误配置”，有什么有效的方法来做到这一点呢？为例： import pandas as pd import numpy as np weights = {'IX1' : 0.3, 'IX2' : 0.2, 'IX3' : 0.4, '

浏览 1提问于2019-02-14得票数 3

回答已采纳

3回答

通过匹配另一个数据帧多对一关系来创建新列的数据帧

python、pandas、dataframe、jupyter-notebook

我刚开始使用pandas库，我还不习惯使用dataframe。我尝试使用dataframe1中的列值将列添加到dataframe1中，将该值用作dataframe2的索引，并获取相应的值我有两个数据帧： df1 = pandas.DataFrame({'customer' : pd.Series([28, 28, 29, 30], index=['0', '1', '3', '4']), &#

浏览 2提问于2018-06-14得票数 0

2回答

计算每列的pandas.DataFrame行数

python、pandas、dataframe、count、nan

我想做什么我想数数有条件的行数。每一列应该有不同的编号。 import numpy as np import pandas as pd ## Sample DataFrame data = [[1, 2], [0, 3], [np.nan, np.nan], [1, -1]] index = ['i1', 'i2', 'i3', 'i4'] columns = ['c1', 'c2'] df = pd.DataFrame(data, index=index, columns=columns) p

浏览 4提问于2022-08-22得票数 0

回答已采纳

1回答

使用pandas系列从pandas DataFrame中提取值

python、pandas、dataframe、indexing

我有一个包含键-值对的pandas Series，其中键是我的pandas DataFrame中列的名称，值是DataFrame中该列的索引。例如：系列：然后在我的DataFrame中：因此，从我的DataFrame中，我希望从'A‘的DataFrame中提取索引12处的值，即435.81。我想将所有这些值放入另一个序列中，所以类似于{ 'A'：435.81，'AAP'：468.97，...} 我的声誉很低，所以我不能将我的图片作为图片发布，而不是链接(有人能帮我解决这个问题吗？谢谢！)

浏览 30提问于2017-08-15得票数 0

1回答

使用类从dataframe中删除列

python-3.x、pandas、dataframe、oop

我正在努力减少数据帧中不需要的数据列，但让它在OOP的范围内工作。数据帧中的列是从'A‘到'M’。示例： import pandas as pd # columns 'A' 'B' and 'C' are what I want kept vibe_df = pd.read_csv('C:Location/Document.csv') vibe_df = vibe_df[['DateTime', 'A', 'B', 'C']] 上面的工作，但是，我

浏览 0提问于2020-08-27得票数 1

2回答

ValueError:仅在一行上工作时，列必须与键的长度相同

python、pandas、dataframe、expand

我试图根据一列的拆分向DataFrame添加列。对于两行，所有操作都正常，空列的值为“None”。当我只有一行而DataFrame不能展开时，我希望它也被赋值'None‘。工作实例： >>> import pandas as pd >>> df = pd.DataFrame({'auth':['dbname_user','dbname']}) >>> df auth 0 dbname_user 1 dbname >>> df[[&#

浏览 19提问于2022-08-23得票数 0

回答已采纳

2回答

如何创建具有指定行数和列数的pandas DataFrame

python、pandas

我是pandas概念的新手，有没有可能创建一个行大小为1，列长度为8的DataFrame。我试过了： import pandas as pd df = pd.DataFrame({'Data':[]}) 但这只创建了一行和一列。

浏览 0提问于2018-11-01得票数 1

1回答

如何删除缺少值的列和行？

python、pandas

我一直在尝试接受一个pandas.Dataframe，并同时删除缺少值的行和列。在尝试使用dropna并在两个轴上应用时，我发现不再支持这一点。因此，我使用dropna尝试删除列，然后删除行，反之亦然。显然，结果是不同的，因为值不再准确地反映初始状态。举个例子吧： pandas.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'], "toy": [numpy.nan, 'Batmobile', 'Bul

浏览 5提问于2022-04-29得票数 1

回答已采纳

1回答

如何从pandas中的数据透视表中产生干净的DataFrame

python、pandas、pivot

我有下一个问题。例如，我在Pandas中有next DataFrame a b c 'x' 1 100 'y' 2 100 'z' 3 100 现在，我希望从列a中的值创建新DataFrame的标题，列b中的值是我用于索引的第一行和列c中的对应值。目前我使用的是下面的代码： import pandas piv = df.pivot(index='c', columns='a') new_df = pandas.DataFrame(piv.to_records()) 输出不太适合我，因为我在一个新DataF

浏览 9提问于2018-08-07得票数 0

回答已采纳

2回答

将来自2个数据的2列的所有组合之和

python、pandas、dataframe、sum、combinations

我有2个dataframes df1和df2 (相同的索引和行数)，我想要创建一个新的dataframe，其中的列是来自df1和df2的所有2列组合的总和，例如：输入: import pandas as pd df1 = pd.DataFrame([[10,20]]) df2 = pd.DataFrame([[1,2]]) 输出: import pandas as pd df3 = pd.DataFrame([[11,12,21,22]])

浏览 9提问于2022-01-20得票数 2

回答已采纳

1回答

当将熊猫DataFrame保存为羽毛时，可以指定列类型吗？

python、pandas、feather

当前，如果一个列碰巧只有空值，则会抛出一个异常，并带有以下错误：无效:无法推断对象数组的类型，均为空可以指定列的类型，而不是推断类型？版本： feather-format==0.3.1 pandas==0.19.1 样本代码： feather.write_dataframe(pandas.DataFrame([None]*5), '/tmp/test.feather')

浏览 1提问于2017-01-03得票数 4

回答已采纳

1回答

如何检查一个dataframe列中的值是否包含在另一个完整列中？

pandas、dataframe

在我的项目中，我需要检查整个dataframe列中是否存在一些值。示例dataframe： df=pd.DataFrame([['abc', 'a'], ['def', 'x'], ['aef', 'f']]) df.columns=['a', 'b'] >>>df a b 0 abc a 1 def x 2 aef f 这个静态代码运行良好： df['a'].str.contains('f')

浏览 0提问于2019-09-25得票数 1

回答已采纳

1回答

通过一次更改一列，有效地使用Dask加载和存储数据

python、pandas、csv、dask

我正在实现一个csv解析器的过程中使用Dask和熊猫的数据。我想让它只加载它需要的列，这样它就可以很好地工作，而不需要加载大量的数据。目前，我发现的唯一一种方法是将所有数据作为熊猫数据加载，修改列并从熊猫转换而来。 all_data = self.data_set.compute() # Loads all data, compute to pandas dataframe all_data[column] = column_data # Modifies one column self.data_set = dd.from_pan

浏览 3提问于2020-09-27得票数 0

回答已采纳

1回答

OneHotEncoder更改名称列

python、label、categorical-data、one-hot-encoding

我使用OneHotencoder将分类列转换为数值数据，但算法更改了列的名称。如何保存相同的名称列？ (我使用python 3) 我的数据框如下： >>> import pandas >>> import numpy >>> ar = numpy.array([['yassine', 1], ['jack',7], ['ahmed',4]]) >>> df = pandas.DataFrame(ar, columns = ['name', 'labe

浏览 1提问于2019-04-10得票数 0

1回答

迭代pandas列中的字典列表并创建新列

python、pandas、dataframe、dictionary

我想从pandas dataframe列解析json字典，遍历字典并将它们赋给新的列值。这里有一列数据帧：df['Column'][0] [{'Name': 'Vacant', 'Value': 3904000, 'Unit': 'Qty'}, {'Name': 'Vacant', 'Value': 11.7, 'Unit': 'Pct'}, {'Name': 'Absorption

浏览 57提问于2020-11-09得票数 0

1回答

Python --老熊猫合并的结果比新的熊猫多。

python、pandas

我有两个环境：环境#1: Python3.7.5Pandas 0.23.4 环境#2: 3.8.10Pandas 1.3.4 Python 我在两个版本中都有相同的代码，没有对其进行任何修改。但是，我有这一行特定的代码，这些代码似乎导致了问题/产生了不同的输出： df_result = pd.merge(df_l, df_r, left_on=left_on, right_on=right_on, how='inner', suffixes=suffixes) df_l和df_r只是读取Excel文件。我在两个版本的调试器中检查了它们，它们是完全相同的，所以应该没问题。另外

浏览 1提问于2021-12-14得票数 0

回答已采纳

1回答

熊猫数据串接

python、pandas、dataframe

我有两张数据。第一列只有两列和N行。N是几百到数千。每一列都是一个分子名称，因此，它是一对分子的数据。第二个dataframe:我有一个dataframe，它是1600列和M行。每一列都有一个分子的描述符。因此，每个分子都有1600个描述符。考虑到这两个数据格式，我想要创建一个包含3200列(1600*2)和N行的第3数据帧。对于每一对分子，我想要有第一个分子的1600个描述符，然后是第二个分子的1600个描述符。因此，我将有一个新的数据，每一对分子有3200个描述符。是否有一种pandas方法来组合来自不同DataFrames的列？我的MWE只适用于我的小例子。我有一个MWE，但是

浏览 5提问于2022-06-07得票数 0

1回答

当数据被修改时，如何将熊猫的数据保存到文件中？

python、pandas、dataframe

我有一个包含两列的dataframe。然后定义一个条件语句。(如果第一列中的值较大或等于13，则将第二列中存储的值更改为“ON”。) 因此，如果发生了更改，我希望将数据存储到.csv文件中。(根据比较) import pandas as pd data = {'numbers': [11, 12, 13, 14, 15], 'switch' : ['OFF', 'OFF', 'OFF', 'OFF', 'OFF']} df = pd.DataFrame(da

浏览 2提问于2021-10-03得票数 2

回答已采纳

1回答

如何使用值调用dataframe中的列

python

如何使用列中的值调用python dataframe中的列(名称或索引 dataframe=pandas.DataFrame({'col1':'val1','col2':'val2'}) 如何调用以输入作为值(val1、val2)的列

浏览 0提问于2021-05-03得票数 0

1回答

以幂等方式删除Pandas DataFrame列的惯用方法(没有设置errors=“忽略”)

python、pandas、dataframe

是否有更多的Pythonic或Pandas惯用的方法不只是设置DataFrame列就可以删除errors="ignore"列？假设我有以下DataFrame import pandas as pd from pandas import DataFrame df_initial: DataFrame = pd.DataFrame([ { "country": "DE", "price": 1, "quantity": 10 } ]) 如果我不确定何时

浏览 3提问于2022-12-02得票数 0

2回答

Python熊猫-突出显示最高的n，max，min值

python、pandas

如何在dataframe列中突出显示最高的3max(或min)值？例如，我有： import pandas as pd df = pd.DataFrame({"Values A":[1,2,3,4,5], "Values B":[5,4,3,2,1]}) 我想在Values A列中突出显示(我希望能够为背景和文本选择颜色)。我怎么能这么做？

浏览 8提问于2022-08-05得票数 0

回答已采纳

1回答

检查列表的一个或多个元素是否存在于Pandas列中

python、python-3.x、pandas、numpy

此问题是以下问题Check if pandas column contains all elements from a list的扩展在问题中，为了派生输出，在Pandas列中检查列表的所有成员。我需要检查列表的一个或多个元素，即即使列表中只有一个元素与pandas列中的元素匹配，我也希望在输出中考虑这一点示例数据将为 frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']}) letters = ['a','

浏览 30提问于2020-07-20得票数 0

回答已采纳

2回答

熊猫的功能与我所期望的相反

python、pandas

我试图在Pandas DataFrame列中将NaN转换为0，而"where“函数的行为与我所期望的相反。下面的代码将创建一个数据框架，其中包含一个列，其中NaN位于索引4、5、6和7。 from collections import Counter import pandas as pd x = Counter(pd.np.random.choice(24,2000)) df = pd.DataFrame({'x':x}) df.loc[4:7,'x'] = pd.np.nan df 我用过 df.where(df.isnull() == True

浏览 2提问于2017-07-20得票数 3

回答已采纳

1回答

Pandas中最大值的位置

pandas、dataframe、data-science

我有一个pandas dataframe，我想检索dataframe中最大值的位置(行、列)。我该怎么做呢？

浏览 2提问于2019-11-05得票数 1

1回答

熊猫DataFrame只命名一栏

python、pandas、dataframe

Pandas Dataframe是否有一种方法只命名第一列或第一列和第二列，即使有4列：这里 for x in range(1, len(table2_query) + 1): if x == 1: cursor.execute(table2_query[x]) df = pd.DataFrame(data=cursor.fetchall(), columns=['Q', col_name[x-1]]) 它给了我这个： AssertionError:传递了2列，传递的数据有4列

浏览 6提问于2016-07-13得票数 2

回答已采纳

2回答

无法用字典更新Pandas dataframe元素

python、pandas、dataframe、dictionary

我有一个Pandas dataframe，其中只有2列:第一列是名称，第二列是与名称相关的信息字典。添加新行很好，但是如果我尝试通过指定一个新字典来更新字典列，我将得到 ValueError: Incompatible indexer with Series 所以，准确地说，这就是我为了产生错误而做的事情： import pandas as pd df = pd.DataFrame(data=[['a', {'b':1}]], columns=['name', 'attributes']) pos = df[df.loc[:,

浏览 22提问于2022-06-24得票数 0

2回答

熊猫基于字符串长度的DataFrame.query过滤字符串数据

python、string、pandas、dataframe

这个问题非常类似于这个问题，但我想使用pandas.DataFrame.query。假设我们有一个pandas.DataFrame。我喜欢使用A筛选列A的字符串长度不等于3的行。 import pandas as pd import numpy as np df = pd.DataFrame({'A' : ['hi', 'hello', 'day', np.nan], 'B' : [1, 2, 3, 4]}) df.query('A.str.len() != 3') 但是，我得到了以下错误 Ty

浏览 2提问于2018-08-29得票数 3

回答已采纳

2回答

如何通过分组将Pandas Dataframe转换为数据字典

python、pandas、dataframe、dictionary、pandas-groupby

我有一个由3D数据构建的DataFrame，其形式如下：指数：A，B 列：1.a，1.b，2.a，2.b 我试图把它解压缩到字典中，用索引{1,2}和列{A，B}将{a，b}映射到DataFrames。示例输入： aa = pandas.DataFrame({'1.a':[1,2], '1.b':[3,4], '2.a':[5,6], '2.b':[7,8], 'index':['A', 'B']}).set_index('index') 目标输出： bb =

浏览 8提问于2021-01-28得票数 0

回答已采纳

1回答

下浇铸系列或数据元素逐个元素

python、pandas、numpy、dataframe

考虑一下pd.DataFrame df df = pd.DataFrame([ [1.0, 1.5], [2.2, 3.0] ]) 如果元素是相等的，我想将它们向下转换为int。据我所知，每一列都将以对象类型结束。没关系。 <class 'pandas.core.frame.DataFrame'> RangeIndex: 2 entries, 0 to 1 Data columns (total 2 columns): 0 2 non-null object 1 2 non-null object dt

浏览 1提问于2016-11-11得票数 2

回答已采纳

1回答

在熊猫数据中添加数组

python、pandas

我有一个dataframe，我想创建一个新列，并在这个新列的每一行中添加数组。我知道要做到这一点，我必须将列的数据类型更改为“object”，我尝试了以下方法，但是它不起作用， import pandas import numpy as np df = pandas.DataFrame({'a':[1,2,3,4]}) df['b'] = np.nan df['b'] = df['b'].astype(object) df.loc[0,'b'] = [[1,2,4,5]] 错误是 ValueError: Must

浏览 1提问于2018-04-18得票数 3

回答已采纳

2回答

根据另外两个列的值填充一个熊猫列

python、pandas

我正在尝试填充一列:如果A行的值包含在B列的行中，则用值A填充列C 我试过： import pandas df = pandas.DataFrame([{'A': "a", 'B': ["a"], 'C': ''}, {'A': "b", 'B': ["a", "b"], 'C': ''}, {&

浏览 4提问于2020-05-14得票数 1

回答已采纳

2回答

默认情况下将pandas.DataFrame列分配给Series

python、pandas

假设我有一个DataFrame df = pandas.DataFrame({'a': [1,2], 'b': [3,4]}, ['foo', 'bar']) a b foo 1 3 bar 2 4 我想添加一个基于另一个Series的列 s = pandas.Series({'foo': 10, 'baz': 20}) foo 10 baz 20 dtype: int64 如何将该系列分配给DataFrame的一个列，并在DataFrame索引中没有DataFr

浏览 0提问于2018-07-02得票数 2

回答已采纳

1回答

当第3行的数据长度大于标题长度时，Python pandas.readexcel(文件路径，header=[0,1])会失败。欢迎任何解决方案的建议

python、excel、pandas、numpy、dataframe

我已经定义了我的excel(xlsx)的前两行，即0,1作为头文件。为简单起见，excel文件只有一张工作表。在最初的两行之后，文件中的数据行很少。由于有两个头文件，pandas给了我一个多索引的数据帧，这很好。 dataframe = pandas.readexcel(filepath, header=[0,1]) 当一个文件的所有行都达到头的宽度时，上面这行代码就会给我一个有效的数据帧。这是问题所在。在我的一个excel文件中，标题行有65个excel列，有些数据行有66列。熊猫无法执行 dataframe = pandas.readexcel(filepath, header=[0,

浏览 0提问于2018-11-29得票数 0

2回答

将日期列与NAT(null)从pandas保存到parquet

python-3.x、pandas、parquet、amazon-athena、pyarrow

我需要将可为空的整型日期值('YYYYMMDD')读取到pandas，然后将此pandas数据帧保存为Date32Day格式，以便Athena Glue Crawler分类器将该列识别为日期。下面的代码不允许我将列保存到pandas中的parquet： import pandas as pd dates = [None, "20200710", "20200711", "20200712"] data_df = pd.DataFrame(dates, columns=['date']) data_df['

浏览 32提问于2020-07-14得票数 3

2回答

为什么使用pandas.assign而不是简单地初始化新列？

python、pandas

我刚刚发现了熊猫数据帧的assign方法，它看起来很不错，非常类似于R中的dplyr的mutate。然而，我总是通过‘动态’初始化一个新列来获得它。有没有assign更好的原因？例如(基于pandas文档中的示例)，要在dataframe中创建一个新列，我可以这样做： df = DataFrame({'A': range(1, 11), 'B': np.random.randn(10)}) df['ln_A'] = np.log(df['A']) 但是pandas.DataFrame.assign文档建议这样做： df.assi

浏览 1提问于2018-01-10得票数 32

回答已采纳

3回答

CSV不能用数值来解释。

python、pandas、csv、floating-point

(这是代码和“用户”问题的混合，但由于我怀疑问题是代码，所以我选择在StackOverflow中发布，而不是SuperUser Exchange)。我用.csv方法生成了一个pandas.DataFrame.to_csv()文件。该文件由2列组成:一列是标签(文本)，另一列是名为准确性的数值(浮点数)。分隔列的分隔符是逗号(，)，所有浮点数都用点浮点数存储，如下所示: 0.9438245862 即使将该列保存为float，Excel和也会推断其类型为文本。当我尝试将这个列格式化为数字时，他们忽略了“0”。并返回非常高的值，而不是小数，如下所示： (文字) 0.9438245862 =>

浏览 2提问于2021-03-16得票数 0

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

当熊猫列重命名创建列名重复时，该怎么办？

python、pandas

如果新列名已经存在，那么当我重命名列时，为什么pandas.DataFrame对象不抱怨呢？这使得将来引用新列时返回pandas.DataFrame而不是pandas.Series，这可能会导致进一步的错误。第二，是否有办法处理这种情况？示例： import pandas df = pd.DataFrame( {'A' : ['foo','bar'] ,'B' : ['bar','foo'] } ) df.B.map( {'bar':'foo','f

浏览 2提问于2015-05-29得票数 0

回答已采纳

1回答

避免Pandas将None隐式转换为列元组中的NaN

python、pandas

我有一个Pandas DataFrame，它的列用Python tuples标记。这些列标签元组可以不包含任何内容。当我尝试使用以下任一方法向数据框添加列时，标记元组中的None被隐式转换为numpy.nan。方法1-使用dataframe[ NewColumn ] = ...语法添加列 >>> import pandas >>> df = pandas.DataFrame() >>> column_label = ( 'foo', None ) >>> df[column_label] = [ 1,

浏览 1提问于2016-01-05得票数 1

1回答

熊猫DataFrame列在计算加法列时损坏

python、pandas

我有一个具有下列列和行的数据集 Scored Probabilities for Class "1" Scored Probabilities for Class "2" Scored Probabilities for Class "3" Scored Labels 0.258471 0.009299 0.005433 1 0.154108 0.009577 0.527308

浏览 5提问于2017-01-13得票数 2

回答已采纳

2回答

如何使用聚合方法从熊猫系列中获得独特的值？

python、python-3.x、pandas

考虑一下这个dataframe df = pandas.DataFrame(numpy.random.randint(0,100,size=(200, 4)), columns=list('ABCD')) df['E'] = list(numpy.arange(1001, 1021)) * 10 df['F'] = ['c', 'b', 'b', 'a', 'd'] * 20 + ['d', 'a', 'b', '

浏览 2提问于2017-06-30得票数 3

回答已采纳