对pandas Dataframe列中字符串列表的每个元素进行散列处理

对pandas DataFrame列中字符串列表的每个元素进行散列处理，可以使用pandas的apply方法结合哈希函数来实现。下面是一个完善且全面的答案：

在pandas中，可以使用apply方法对DataFrame列中的每个元素进行自定义的处理操作。对于字符串列表的每个元素进行散列处理，可以使用Python内置的hash函数或者其他哈希函数来实现。

首先，需要定义一个函数来对字符串进行散列处理。例如，我们可以使用Python内置的hash函数来计算字符串的哈希值：

import pandas as pd

def hash_string(string):
    return hash(string)

然后，可以使用apply方法将该函数应用到DataFrame列中的每个元素上：

df['column_name'] = df['column_name'].apply(hash_string)

其中，'column_name'是要进行散列处理的列名。

这样，DataFrame列中的字符串列表的每个元素都会被散列处理，并替换为对应的哈希值。

对于pandas DataFrame列中字符串列表的每个元素进行散列处理的应用场景包括数据加密、数据匹配、数据索引等。例如，在数据加密中，可以将散列处理后的字符串作为密钥或者标识符使用。

推荐的腾讯云相关产品是腾讯云云数据库TDSQL，它是一种高性能、高可用、可扩展的云数据库产品，支持多种数据库引擎，包括MySQL、SQL Server、PostgreSQL等。TDSQL提供了丰富的功能和工具，可以满足各种数据处理和存储需求。

更多关于腾讯云云数据库TDSQL的信息，请访问以下链接： TDSQL产品介绍

请注意，以上答案仅供参考，具体的实现方式和推荐产品可能因实际需求和环境而异。

操作包含列表的pandas数据框列

、

我在pandas中使用了下面的代码和of ()函数来创建一个列，该列包含一个唯一值的列表： import pandas as pd from collections import OrderedDict dct = OrderedDict([ ('referencenum',['10','10','20','20','20','30','30','40']), ('Month',['Jan','Jan'

浏览 16提问于2019-02-06得票数 1

回答已采纳

3回答

在Pandas中添加新DataFrame列不起作用

、、

所以我有一个熊猫DataFrame，里面有2001年亚利桑那州响尾蛇队的击球统计数据。我是Python/Pandas的新手，所以我尝试使用lambda函数添加一些列，如下所示 PA_lambda = lambda row: row.AB + row.BB + row.HBP + row.SH + row.SF OBP_lambda = lambda row: (row.H + row.BB + row.HBP) / (row.PA) if row.PA > 0 else 'NaN' AVG_lambda = lambda row: row.H / row.AB if r

浏览 52提问于2020-06-30得票数 1

1回答

dtype对象的Numpy数组的sys.getsizeof()和nbytes值有很大不同

、、、、

我有一个名称的样本数据集。它是一个csv文件，有2列，每列200行。这两列都包含随机名称。我使用以下代码将csv文件加载到pandas Dataframe中，将dataframe转换为numpy数组，然后将numpy数组转换为标准python列表。代码如下： x_df = pd.read_csv("names.csv") x_np = x_df.to_numpy() x_list = x_np.tolist() print("Pandas dataframe:") print('Using sys.getsizeof(): {}'.format

浏览 0提问于2021-03-26得票数 0

2回答

检查pandas dataframe列中是否有字符串列表

、、

我需要检查整个字符串列表是否都在一列中。这是我的代码： import pandas as pd frame=["foo", "abc", "story"] df = pd.DataFrame({'col1': ['foo abc', 'foobar abc', 'bar32', 'abc 45'], 'col2': ['story', 'epic', 'story', 'baz']})

浏览 20提问于2020-04-16得票数 0

回答已采纳

1回答

将pandas数据帧列拆分为多个列的最有效方法

、、、、

例如，我有一个dataframe列('x')，它包含列表作为值。 import pandas as pd jk = pd.DataFrame() jk['x'] = [[1, 2, 3], [1, 4, 2], [27, 1, 3]] 我使用下面的代码将值拆分成如下所示的列。然而，我的实际数据集非常大。我在每个列表中有大约80,000行和16个值。有没有更有效的方法来做到这一点？ jk1 = pd.DataFrame(jk.x.values.tolist(), columns=['a','b','c'])

浏览 0提问于2018-11-08得票数 3

2回答

根据索引对Pandas行进行分组

、、

我有一个Pandas DataFrame，我正在尝试根据列值对行进行分组，并将一些行合并到列表中。请允许我详细说明：我拥有的DataFrame如下所示： industry index entities cars 0 ['Norway', 'it'] cars 0 ['Mercedes', 'they'] cars 0 ['it', 'EV', 'its'] nature

浏览 18提问于2019-07-15得票数 1

回答已采纳

2回答

熊猫.loc花了很长时间

、、、

我有一个包含170,000,000行和23列的10 GB csv文件，我将其读入到一个数据文件中，如下所示： import pandas as pd d = pd.read_csv(f, dtype = {'tax_id': str}) 我还有一个包含近20,000个唯一元素的字符串列表： h = ['1123787', '3345634442', '2342345234', .... ] 我想在dataframe d中创建一个名为d的新列。每当d['class'] = 'A'具有字符串h列表中

浏览 0提问于2018-05-07得票数 4

回答已采纳

4回答

TypeError:仅在使用多维列表初始化set时才使用“list”类型

、、、

我知道这是一个常见的问题，并且有很多文章讨论关于set元素的散列属性的话题，但是我试图理解为什么set可以接受一维列表而不是多维列表来初始化它。看看下面的代码: Case1，Case2工作(他们接受1D列表)，而Case3不工作(它接受2D列表)。如何以及维度在集初始化中的作用. #Case1: cities = set(["Frankfurt", "Basel","Freiburg"]) print(cities) #Case2: citylist = list(["Frankfurt", "Basel",&

浏览 0提问于2018-04-09得票数 0

回答已采纳

2回答

使用列表指定熊猫列

、

pandas.DataFrame(columns=('code', 'name', ['aa', 'ab'])) 我想要创建一个dataframe，使用一个列表来指定一些列名，但是我得到了以下错误： *** TypeError: unhashable type: 'list' 怎么修呢？

浏览 0提问于2016-05-18得票数 1

回答已采纳

2回答

在dataframe中连接列表的两种方法:作为行和列

、、、

我有两份名单： l1 = ['0a',22,44] l2 = ['0b',25,55,66] 现在，我加入它们，以便每个列表成为数据框架的一列： import pandas as p df1 = p.DataFrame(zip(l1,l2)) df1 我收到了3行2列的数据帧(错过了66的l2值)。它看起来与ndarray的定义相同，该定义说：“如果ndarray被传递到dataframe，那么所有列都必须有相同的行数”。但我不和ndarray一起工作！但是，如果我将列表作为数据帧的行加入，那么Python将保存66。 df2 = p.DataFrame([l

浏览 0提问于2015-09-07得票数 2

回答已采纳

3回答

删除pandas DataFrame中的嵌套数组

、、、

我正在尝试将.mat文件转换为pandas DataFrame，但.mat文件的结构使其很难解开。目前，DataFrame如下所示 A 2008-01-02 [1] 2008-01-03 [2] 2008-01-04 [3] 2008-01-07 [4] 2008-01-08 [5] 看起来每列中包含的值都包含在它们自己的数组中-- .dtype返回object。我最终想要聚合我的列，但是因为它

浏览 1提问于2017-02-17得票数 1

5回答

根据位置将嵌套列表中的元素提取为单独的列表。

、、

我有一个嵌套列表，上面说： [[1,2], [3,4], [5,6]] 如何从此列表( [1,3,5]或[2,4,6]) 中提取列，而不将其转换为pandas DataFrame或np array (如： a = [[1,2],[3,4],[5,6]] list(pd.DataFrame(a)[0]) 或 a = [[1,2],[3,4],[5,6]] list(np.array(a)[:,0]) 这两者都产生了[1,3,5]。

浏览 7提问于2020-07-02得票数 1

回答已采纳

2回答

将一大组单词与一组小集合进行匹配

、、

我觉得可以有一个算法来解决这个问题，但我只是不知道它会被称为什么。假设你有一个“大”的单词集合， ('apple', 'orange', 'potato', 'tomato', 'river', 'mountain', 'forest') 以及将被视为要求的较小集合的列表： [('apple'), ('potato', 'tomato'), ('cockroach', 'dynamite')] 有没

浏览 2提问于2017-03-25得票数 0

1回答

大熊猫数据--元组列表

、

我将.xlsx文件解析为pandas dataframe，并希望将其转换为元组列表。pandas dataframe有两列。元组列表需要与product_id一起分组的transaction_id。我看到了一个关于创建一个元组列表的，但是代码结果与用`product_id分组的transaction_id分组。如何在页面底部获得所需格式的元组列表？ import pandas as pd import xlrd #Import data trans = pd.ExcelFile('/Users/Transactions.xlsx') #parse xlsx file in

浏览 2提问于2014-12-01得票数 0

回答已采纳

3回答

具有混合值的两列的唯一组合

、、

我有两个包含col1和col2的列我试图创建键列，以表明a和b与b和a相同问题代码： import pandas as pd pd.DataFrame({'Col1':['a','c','b','e'], 'Col2':['b','d','a','f']})

浏览 2提问于2021-07-26得票数 2

回答已采纳

4回答

从pandas DataFrame获取3列的最大值？

、、

我有一个有3列的Pandas DataFrame： c={'a': [['US']],'b': [['US']], 'c': [['US','BE']]} df = pd.DataFrame(c, columns = ['a','b','c']) 现在我需要这3列的最大值。我试过了： df['max_val'] = df[['a','b','c']].max(axis=1

浏览 1提问于2020-07-23得票数 1

1回答

使用Python脚本根据PowerBI中的当前数据集创建新表

、、

我有一个csv文件作为源数据集。目前在表中有一列，我想使用Python循环并从每个单元格的字符串中提取数据。例如，在单元格中：数量变化了10，价格变化了90。我想使用Python并提取"Quantity，Price“和"10，90”来创建具有这些属性和值的新表。然后使用Python创建视觉效果，而不是使用PowerBI视觉效果。我该怎么做呢？这真的有可能吗？编辑:由于所有的混淆，我添加了一个我正在处理的专栏的屏幕截图。我想遍历Properties列中的所有行，获取每个单元格中的数据，然后提取它们以创建一个新表。例如，在本例中，新表将如下所示：属性|值未连接高

浏览 18提问于2021-03-07得票数 0

1回答

难以将字典值的dataframe列展开/规范化为dataframe/其他列

、、、

我正在尝试将字典的dataframe列扩展到它自己的dataframe/其他列中。我已经尝试过使用json_normalize、迭代和列表理解，但出于某种原因，它只是返回一个空白数据。我已经给我的CSV附加了一个链接。 import matplotlib.pyplot as plt import pandas as pd import requests from pandas.io.json import json_normalize import seaborn as sns import json from google.colab import files import

浏览 5提问于2022-03-24得票数 1

2回答

从Python dataframe的列的每一行中移除前x个字符

、、、、

我有一个大约1,500行15列的Python数据帧。对于一个特定的列，我想删除每行的前3个字符。作为一个简单的例子，这里有一个数据帧： import pandas as pd d = { 'Report Number':['8761234567', '8679876543','8994434555'], 'Name' :['George', 'Bill', 'Sally'] } d = pd.DataFrame(d) 我想

浏览 5提问于2017-02-21得票数 43

回答已采纳

2回答

所有熊猫细胞的Lemmatization

、

我有一个熊猫数据帧。有一列，让我们把它命名为：'col‘这一列的每个条目都是一个单词列表。'word1‘、'word2’等。如何使用nltk库有效地计算所有这些单词的引理？ import nltk nltk.stem.WordNetLemmatizer().lemmatize('word') 我希望能够为pandas数据集中某一列中所有单元格的所有单词找到一个引理。我的数据看起来类似于： import pandas as pd data = [[['walked','am','stressed',

浏览 1提问于2017-11-30得票数 11

回答已采纳

1回答

将具有空白列表(值)的字典转换为df

、、、、

我是pandas的新手，一直在努力使用pd.DataFrame(Dict)将字典转换为df。下面是更多细节:这个Dict是for循环的一部分，它在每次迭代中读入一个新的输入文件。因此，字典值(列表)每次都会更新，并采用不同的列表大小。问题是，一旦Dict包含所有键的空白列表(值)并输出："ValueError:如果使用所有标量值，您必须传递一个索引“，我的代码就无法执行pd.DataFrame(Dict)。 Dict = {'Title': [], 'Organization': [], 'City': [], 'Company

浏览 30提问于2019-03-04得票数 0

1回答

在将大熊猫数据文件转换为cudf dataframe时，缓冲区大小必须被元素大小所除。

、、、

我有一个以逗号分隔的列的数据帧--用引号(即string对象)编码的值。例如： df['a'] '1,2,3,4,5' '2,3,4,5,6' 我能够将字符串格式的值列表转换为NumPy数组，并能够成功地完成我的操作。 def func(x): return something for t_df in pd.read_csv("testset.csv",chunksize=2000): t_df['predicted'] = t_df['prev'].parallel_appl

浏览 1提问于2020-04-21得票数 0

4回答

如何在列表中查找公共元素

、、

我有一个列表l1，看起来像1,2,1,0,1,1,0,3...我希望为每个元素找到与该元素具有相同值的元素的索引。例如，对于列表中的第一个值1，它应该列出列表中存在1的所有索引，并且应该对列表中的每个元素重复相同的索引。我可以编写一个函数来迭代列表，但是我想检查是否有任何预定义的函数。我正在从Pandas dataframe列中获取列表，如果系列/dataframe库提供了这样的函数，那就更好了

浏览 4提问于2016-11-03得票数 0

1回答

Python数据帧匹配列表中的字符串

、、

我需要在dataframe列中搜索列表中的匹配字符串，并将匹配返回到dataframe中的新列中。下面的代码可以工作，但它的效率非常低，而且我的数据帧中有数百万行。 import pandas as pd Cars = {'MakeModel': ['HondaCivic','Toyota_Corolla','FordFocus','Audi--A4']} df = pd.DataFrame(data=Cars) mlist = ['Honda','Toyota','

浏览 6提问于2019-07-05得票数 1

回答已采纳

1回答

在python中使用“isin”作为三个过滤器

、、

我有以下数据 # Import pandas library import pandas as pd import numpy as np # initialize list elements data = ['george', 'instagram', 'nick', 'basketball', 'tennis'] # Create the pandas DataFrame with column name is provided expli

浏览 1提问于2022-07-17得票数 -1

回答已采纳

6回答

如果列的任何行包含特定的字符串，则选择列。

、、

如果列中的任何值包含字符串，则尝试获取DataFrame中的列列表。例如，在下面的dataframe中，我希望得到字符串中有%的列的列表。我可以使用for循环和series.str.contains方法来完成这一任务，但是for看起来并不是最优的，特别是在更大的数据集中。有没有更有效的方法来做到这一点？ import pandas as pd df = pd.DataFrame({'A': {0: '2019-06-01', 1: '2019-06-01', 2: '2019-06-01'},

浏览 0提问于2019-06-21得票数 7

回答已采纳

1回答

在python中连接Dataframe的列？

、

我使用下面的代码生成了一个数据框架： # importing pandas as pd import pandas as pd # Create the dataframe df = pd.DataFrame({'Category':['A', 'B', 'C', 'D'], 'Event':['Music Theater', 'Poetry Music', 'Theatre Comedy', '

浏览 3提问于2019-10-16得票数 1

回答已采纳

1回答

Pandas -将数据追加到特定列

、

我需要将列表中的数据附加到特定的列。我有4个列表： orderNumber = ['123456789'] countryOfOrigin = ['United Kingdom'] sizeList = ['2', '4'] quantityList = ['10', '12'] 我还有一个CSV文件，包含以下标头： OrderNumber COO Size QTY 我需要这些列表附加到此CSV在其正确的列。如果列表在数据中只有一项，则简单地对其进行复制以填充所有行 OrderNumb

浏览 28提问于2019-10-17得票数 1

回答已采纳

2回答

按列表的顺序对熊猫DataFrame进行排序

、、、

所以我有一个pandas DataFrame，df，包含表示分类的列(即王国、门、类等)。我还有一个分类标签列表，这些标签对应于我希望DataFrame排序的顺序。该列表如下所示： class_list=['Gammaproteobacteria', 'Bacteroidetes', 'Negativicutes', 'Clostridia', 'Bacilli', 'Actinobacteria', 'Betaproteobacteria', 'delta/epsilon

浏览 1提问于2014-10-05得票数 6

回答已采纳

4回答

在Pandas DataFrame中搜索子字符串最有效的方法是什么？

、、、、

我有一个Pandas包含75k行文本(大约。(每一行350字符)。我需要搜索在该数据帧中出现的45k子字符串列表。预期输出是包含作者列表和出现次数的authors_data dict。下面的代码假设我有一个dataframe['text']列和一个名为authors_list的子字符串列表。 authors_data = {} for author in authors_list: count = 0 for i, row in df.iterrows(): if author in row.text: count

浏览 1提问于2018-08-14得票数 4

回答已采纳

3回答

将int赋值给pandas中列表列中的字符串

、

我有一个Pandas dataframe，其中包含一个带有字符串列表的列。 <code>A0</code> 如何开始为列表中的每个值分配一个唯一的id，使其在整个列中都是相同的？ <code>A1</code>

浏览 35提问于2020-11-16得票数 3

回答已采纳

3回答

Pandas从另一列的字符串片创建新列

、

我想在Pandas中创建一个新列，使用为dataframe中的另一列分割的字符串。例如。 Sample Value New_sample AAB 23 A BAB 25 B 其中，New_sample是由Sample的简单[:1]切片形成的新列我尝试了许多方法，但都无济于事--我觉得我错过了一些简单的东西。做这件事最有效的方法是什么？

浏览 10提问于2014-09-11得票数 56

回答已采纳

3回答

Python排序列表根据每个列表的第一个值按自定义顺序排列列表

、、、

我希望根据每个列表的第一个值，以自定义顺序对列表列表进行排序。列表列表是my columns of a pivot_table dataframe (cols = list(dfOverview.columns.values))，其中一些列本身就是一个列表。最小工作示例(我希望以b开头的列移到c之前)： cols = ['2016', '2017', '2018', ('a', '2016'), ('a', '2017'), (

浏览 29提问于2018-02-07得票数 1

回答已采纳

1回答

关于Pandas Dataframes的Python列表(不规则的)列表

、、、

这是一个关于堆栈溢出的递归问题，但是给定的解决方案仍然不完美。对于我来说，屈服仍然是python中最复杂的事情之一，所以我不知道如何自己解决它。当给定给函数的任何列表中的项是Pandas dataframe时，平面函数将返回其标头，而不是dataframe本身。您可以通过运行以下代码来明确地测试这一点： import pandas import collections df = pandas.DataFrame(np.random.randn(100, 4), columns=list('ABCD')) def flatten(l): for el in l:

浏览 3提问于2014-01-30得票数 1

回答已采纳

3回答

2个脚本返回2个不同的哈希，我认为是相同的字符串

、

我正在尝试构建一个破解程序，并使用两个不同的脚本来实现，第一个脚本从一个单词列表( MD5 list.txt)中获取一个单词列表，然后对它们进行哈希处理，并将它们写入另一个文件(WordsHash.txt)。第二个方法获取一个用户定义的单词，对其进行散列，并将其与WordHash.txt中的散列进行比较，但我得到的是“相同”字符串的不同散列。第一个脚本： import hashlib hashes = open("WordsHash.txt", 'w') m = hashlib.md5() with open("huge word list.tx

浏览 0提问于2012-02-28得票数 0

回答已采纳

4回答

如何删除熊猫列Python中字符串列表中的重复项

、、、、

我正在尝试删除Pandas DataFrame中列下的字符串列表中的重复字符串。例如，以下的列表值： [btc, btc, btc] 应该是； [btc] 但是，我尝试过多种方法，但似乎没有一种方法起作用，因为我无法访问列表中的字符串值。任何帮助都是非常感谢的。 DataFrame： dollar_sign followers_count \ 0 [btc] 35946 1 [btc] 35946 2 [btc]

浏览 0提问于2018-04-04得票数 1

回答已采纳

1回答

熊猫DataFrame value_counts在存储DataFrame的专栏上

、

我正在尝试在一个存储另一个value_counts()的熊猫DataFrame专栏上使用DataFrame。是否有可能使value_counts()函数工作(或类似的东西)，而不必将DataFrames转换为字符串、散列或类似的东西？我试着计算内部DataFrames (完全破坏)，然后尝试使用数组，这似乎也无法进行正确的比较： # importing pandas import pandas as pd import numpy as np # Creating Arrys ar1 = np.array([11,22]) ar2 = np.array([11,22]) ar3 = n

浏览 2提问于2022-05-18得票数 0

2回答

在python中统一编码postgres中的文本列

、、、

我是Python的新手，我想从postgresql数据库中提取一个"user_name“列，去掉名字中的所有重音。Postgres之前有一个名为unaccent的函数，但现在似乎不起作用了。所以，我求助于Python。到目前为止，我有： from sqlalchemy import create_engine from pandas import DataFrame import unidecode engine_gear = create_engine('XYZABC') connection = engine_gear.connect() member = 1 r

浏览 3提问于2018-01-26得票数 0

1回答

如何在pandas df中存储二维数组并读取它而不将其转换为字符串

、、

我有一个df，其中一列是数组，每个单元格是1*50维，有20行。 import pandas as pd df = pd.DataFrame(zip(list(range(0, 20, 1)), np.random.rand(20, 50)), columns=['id', 'array']) 此时，将数组列用于其他数组的任何数组操作(加法、乘法、除法等)是没有问题的。但是，如果将df保存为csv并在另一个notebook中读取它(我没有好的方法在这里演示它)，数组列中的每个单元格都会变成列表包装字符串，使用ast literal_e

浏览 24提问于2021-05-14得票数 2

1回答

如何使用sklearn FeatureHasher？

、、

我有一个这样的数据帧： import pandas as pd test = pd.DataFrame({'type': ['a', 'b', 'a', 'c', 'b'], 'model': ['bab', 'ba', 'ba', 'ce', 'bw']}) 如何在其上使用sklearn FeatureHasher？我试过了： from sklearn.feature_extraction impor

浏览 0提问于2016-11-22得票数 8

回答已采纳

1回答

将值附加到基于字典键的列表中

、、

去年夏天，我开始为我的研究编写Python脚本，并且一直在学习这种语言。对于我当前的工作，我有一个列表字典，sample_range_dict，是以descriptor_cols作为键初始化的，以及值的空列表。示例代码如下： import numpy as np import pandas as pd def rangeFunc(arr): return (np.max(arr) - np.min(arr)) df_sample = pd.DataFrame(np.random.rand(2000, 4), columns=list("ABCD")) #random

浏览 2提问于2019-12-04得票数 2

回答已采纳

1回答

Pandas DataFrame中的Regex -寻找字符间的最小长度

、、、、

编辑:为可重现性更新我目前正在Pandas DataFrame中工作，在列A的每一行中都有一个字符串列表。我正在试图提取关键字列表(列表B)的任何子列表组合之间的最小距离。 ListB = [['abc','def'],['ghi','jkl'],['mno','pqr']] 而Dataframe列中的每一行都包含一个字符串列表。 import pandas as pd import numpy as np data = pd.DataFrame(np.array([['1',

浏览 11提问于2020-11-29得票数 1

回答已采纳

1回答

删除某些行包含列表而其他行包含int/string的重复项

、、、

我有一个数据帧，我想在其中删除具有重复ID的行。在大多数情况下，ID是整数和字符串。然而，一些ID条目是多个ID的列表。我不能拆分这些列表，但是当尝试删除重复项时，我得到一个错误。作为参考，我使用了df = df['ID'].astype(str)，它对下面显示的错误没有任何影响。 df代码： d = {'ID': [999, 123, F41, 99W21, 662, 123, [552, F430, R111], 44482, F41, [M192, 5527, 7890, 111120] ]} df = pd.Dataframe(data

浏览 16提问于2019-11-19得票数 0

2回答

基于另一列从Pandas系列列表中选择元素

、、、

我有一个Pandas DataFrame的如下形式： Name Dates Trigger John [d1,d2,d3] 1 Mike [d4] NaN Li [d1,d4,d5] 2 列日期中的行是Python，其中列表中的每个元素都是DateTime对象(例如'2019-08-15')。我的最终目标是获得一个数组，其中包含触发器中提到的索引位置的日期之间的差异(以天为单位)，从而生成一个新列，如： Date_diff [d2-d1

浏览 1提问于2019-11-05得票数 2

回答已采纳

3回答

如何从熊猫列中删除列表中的字符串

、、

我有一个数据格式的df import pandas as pd df = pd.DataFrame( { "ID": [1, 2, 3, 4, 5], "name": [ "Hello Kitty", "Hello Puppy", "It is an Helloexample", "for stackoverflow", "Hell

浏览 0提问于2018-08-03得票数 11

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

2回答

将列表转换为python中的数据

、、、

浏览 3提问于2016-12-21得票数 2

回答已采纳

1回答

字符串转换为序列时出现类型错误

、、、

我想在excel数据帧中创建一个新的列"HQ_LOC"，它接受来自wharton['conm']的字符串j作为值 xls = excel[(excel['prowess_compustat_h1b'] == 1) | (excel['compustat_h1b'] == 1)] excel['HQ_LOC'] = pd.Series([]) for name in xls["coname"]: for j in wharton['conm']: if nam

浏览 1提问于2021-03-24得票数 0

1回答

Pandas在DF创建过程中添加额外的空列

、

我得到了： AssertionError: 14 columns passed, passed data had 12 columns. 错误是不言而喻的，我正在从列表列表创建一个DataFrame，每个列表实际上包含12个字段。如何在一次操作中使用NaN强制pandas.DataFrame添加额外的列。这就是我创建df的方式。 pandas.DataFrame(results, columns=FIELDS) 有没有一种方法可以在DataFrame创建中简化这一过程，而不必这样做： pandas.DataFrame(results, columns=FIELDS_12) df["E

浏览 53提问于2017-02-15得票数 0

回答已采纳

1回答