如何使用pandas列和字典高效地构建特性？_如何使用pandas和numpy高效地编写这段代码？_如何在python pandas中高效地使用字符串匹配和聚合函数合并csv - 腾讯云开发者社区

python、pandas、dataframe、machine-learning、feature-extraction

我遇到了一个机器学习问题，我正在用字典的值计算pandas数据帧文本列的二元语法Jaccard相似度。目前，我将它们存储为列表，然后将它们转换为列。这在生产中被证明是非常慢的。以下是我目前正在遵循的步骤:对于dict中的每个键: 1.获取pandas列和dictkey的二元语法2.计算Jaccard相似度3.追加到一个空列表4.将该列表存储在dataframe中5.将该列表转换为列sim_list.append(n_gram_jaccard_simil

浏览 21提问于2019-10-06得票数 1

回答已采纳

1回答

将任意函数应用于熊猫DataFrameGroupBy对象的有效方法？

python、pandas

我有一个“id”列和许多其他列的dataframe。对于每个id，我需要使用来自相应行的数据来计算许多特性。这些特性可以是复杂的函数，而不是简单的聚合。优选地，应相对有效地计算特征，并以透明的方式，即如何从数据中计算特征，应在一个地方定义。我会在下面这样做--例如，在字典中定义如何计算特征，然后使用该字典和groupby (可能会并行化group

浏览 1提问于2022-03-08得票数 0

回答已采纳

1回答

Pandas对整个数据集进行单行过滤-它是如何实现的？

python、pandas、dataframe

我现在正在研究这个奇妙的库，我对过滤，甚至列操作是如何完成的感到非常困惑，并试图理解这是pandas还是python本身的一个特性。更准确地说： import pandasdf['Column'] # would display all valueswould display all values from Column greater than

浏览 12提问于2020-07-01得票数 1

回答已采纳

1回答

当行数/列数未知时，在DataGridView上使用VirtualMode

.net、winforms、linq、performance、datagridview

我需要在数据网格中高效地显示具有未知键的未知长度的字典序列。此序列是可能较慢的LINQ查询的结果，该查询可能包含任意数量的结果。使用VirtualMode可以做到这一点吗？或者，我是否需要估计屏幕上有多少行可见并手动构建行/列？如果是这样，

浏览 0提问于2010-05-16得票数 2

2回答

Pandas惯用的将json列表映射到dataframe的方式

python、json、pandas

我有一个从json输入派生的数据集，我希望将其映射到pandas dataframe。使用pandas.DataFrame.from_dict或pandas.io.json.json_normalize加载这类字典的列表，会产生一个包含两列的数据帧: foo和bar。df = pd.DataFrame.from_dict([popo] * 10, orient='index') 在一个完美的世界里，我想让df‘’bar‘去引用一个形状为n，3的数组，

浏览 46提问于2019-03-04得票数 2

1回答

是否可以在Windows中压缩与AWS Lambda兼容的文件夹？

python、linux、windows、amazon-web-services、aws-lambda

我有一个Catboost模型，我使用Python构建并持久化(通过pickle)，我正在尝试使用AWS Lambda部署此模型。我还有另外两个Python脚本可以与我的模型和lambda_function.py脚本一起使用: functions.py和features.py。函数脚本包含解析( JSON )有效负载、生成预测和返回JSON对象的函数。功能脚本包含列表、字典等，以尽可能高效地进行解析。这些脚本总共有3个

浏览 0提问于2020-03-20得票数 1

4回答

为Scikit提供熊猫数据的矢量法-学习

python、pandas、scikit-learn

假设我在Pandas中有数据，如下所示：A fooC somethingAbar其中行表示实例，列表示输入特性(不显示目标标签，但这将用于分类任务)，即我试图从构建my_dataframe X。如何使用例如有效地向量化这一点？是否需要首先将DataFrame中的每个条目转换为字典？(以上链接中的示例就是这样做的)。

浏览 8提问于2013-11-16得票数 20

1回答

群标识和唯一列值的转移计数

python、pandas

eat drink2 B 0 1 1 2 0 我可以用一种使用字典计数器的效率很低的方法来完成这个任务，但是我想知道如何使用Pandas高效地完成这个任务，而不需要创建更小的DataFrames和连接。

浏览 0提问于2016-01-17得票数 1

回答已采纳

1回答

如何将熊猫DataFrame加载到TensorFlow中进行有效的批量训练？

python、pandas、tensorflow、deep-learning、tensorflow-datasets

更具体地说，我想从该DataFrame加载批量的不同功能组，但我不知道如何做到这一点！假设我有由特性<code>D0</code>、<code>D1</code>和<code>D2</code>组成的DataFrame。>张量，它应该同时表示特性<code>D6</code>和<code>D7</code>。当然，

浏览 10提问于2019-12-03得票数 0

回答已采纳

1回答

熊猫与科学工具包:切片DataFrame时内存的使用

python、pandas、scikit-learn

从这里，我提取了几十个在RandomForestClassifier中使用的特性:其中一些特性只是从数据中的列派生出来的，例如： feature2 = data["AnotherColumn"]feature3 = pandas.DataFrame，构建一棵树需

浏览 2提问于2012-09-01得票数 2

回答已采纳

2回答

比较两列中的每个值

python、pandas、numpy、dataframe

如何比较数据帧中的两列，并根据这两列的差异高效地创建新列？我的表中有一个有很多缺失值的特性，我需要使用数据库中包含相同特性的其他表来回填这些信息。我已经使用np.select比较了我原始表中的功能和其他表中的相同功能，但我觉得应该有一个简单的方法。例如：pd.DataFrame({'A': [1,2,3,4,np.nan], 'B':[1,np.nan,30

浏览 24提问于2019-06-03得票数 0

回答已采纳

2回答

将每个单独的列设置为具有其自己的数据类型

python、python-2.7、pandas、dataframe、types

如何为每一列设置特定的数据类型？对于“系统时间”我想使用DateTime，对于“温度”我想使用float，因为值有十进制数(例如24.4)，而对于“警报”我想使用string。

浏览 0提问于2014-10-26得票数 0

2回答

除了索引和列都是字符串外，文件上有许多int列的read_csv d类型推断。

python、pandas、csv、types、type-inference

我需要为我正在构建的推荐程序加载一个大的.csv文件(大约有1000万条记录)。我的输入文件看起来如下(k列接近400列)：ValueError: invalid literal for int() with base 10: 'a' 我猜这是因为我的索引和列是字符串我知道我可以尝试使用<em

浏览 2提问于2017-05-03得票数 5

2回答

根据列值过滤numpy ndarray (矩阵)

python、matrix、numpy

这个问题是关于根据某些列值过滤NumPy ndarray。第一列名为category_code，我需要过滤矩阵，只返回category_code在("A", "B", "C")中的行。结果将需要另一个NumPy ndarray，它的列仍然可以通过dtype名称访问。

浏览 2提问于2012-08-23得票数 7

回答已采纳

1回答

添加新行以计算已退出熊猫数据的和平均值。

python、python-3.x、pandas、numpy、dataframe

String数组存储名称，使用整数数组存储苹果苹果酒(每个售价为5.50美元)的订单数，并使用一个整数数组存储苹果汁的订单数(每个售价为4.50美元)。5df = pd.DataFrame(columns="Names“、"Cider”、"Juice“、"Subtotal(Cider)”、"Subtotal(Juice94.5 133.0 0 Paul 0.0 23.0 0

浏览 1提问于2018-03-14得票数 2

回答已采纳

2回答

大型python字典。存储、加载和写入

python、json、performance、dictionary、graph-theory

我有一个很大的python值字典(大约50 GB)，并将其存储为JSON文件。当涉及到打开文件和写入文件时，我遇到了效率问题。我知道您可以使用ijson高效地读取文件，但是我如何高效地对其进行写入呢？我是否应该使用Python字典来存储我的数据？python字典有多大有限制吗？(字典会变得更大)。

浏览 1提问于2018-12-25得票数 6

2回答

在没有循环的情况下从pandas数据帧构建频率字典

python、python-3.x、pandas、dataframe、bioinformatics

我需要从一个pandas系列(来自下面的dataframe中的'amino_acid‘列)创建一个频率字典，它还为字典中的每个条目添加一个相邻的行(来自'templates’列)。我如何提高效率/使用最佳实践来实现这一点？sequence_counts: sequence_counts[seq[0]] += seq[1] 我见过下面这样的人，但

浏览 14提问于2019-06-24得票数 0

回答已采纳

1回答

如何导入2个CSV文件，如果其中一个文件存在于另一个文件中，如何比较值，并生成最终的CSV，其中有一列表明值是否存在？

python、python-3.x、csv

我有2个包含这些列的csv文件 CSV 2所需的输出将是另一个CSV文件，其中包含来自CSV1的所有列，并查看它是否存在于CSV2中。“Exist”列将包含1(如果为True )和0(如果为False )。有没有办法在不使用Pandas的情况下尽可能高效地完成这项工作？

浏览 11提问于2021-03-02得票数 0

1回答

读取csv并更改'ID‘中的第一个值，然后在python3中写入csv

python、export-to-csv

我不知道如何更改s= 'Value_ID‘的值。任何帮助都将不胜感激。

浏览 1提问于2017-06-01得票数 0

1回答

你如何称呼DynamoDB和Cassandra的数据模型？

cassandra、amazon-dynamodb、scylla

但是，将其称为“键值”数据库完全忽略了DynamoDB的一个极其基本的特性，即排序键的特性:键有两个部分(分区键和排序键)，具有相同分区键的项可以按照排序键一起高效地检索。Cassandra还具有完全相同的排序项内部分区特性(它称之为“聚类键”)，使用术语来描述它。然而，虽然这个术语“宽列”比“键值”要好，但它还是有点不合适，因为它描述了一个项目可以有大量不相关列的更一般的情况--不一定是一个单独项目的排序列表。因此，我的问题是，是否

浏览 3提问于2020-03-22得票数 12

回答已采纳

点击加载更多