使用fuzzy对列的字符串进行规范化

文章/答案/技术大牛

发布

1回答

python、pandas、fuzzywuzzy

-2020 Mexico Tulum 2344 Cola Cola fuzz.parti

浏览 18提问于2021-01-24得票数 0

0回答

将函数应用于列表中的一对元素

python-3.x、list、loops、iterator

我有一个类似如下的字符串列表： "apple, mangos and morewith more red and black",我想按顺序对这些字符串进行模糊匹配，比如

浏览 4提问于2018-07-11得票数 1

回答已采纳

1回答

在elasticsearch中，有什么方法可以增加模糊查询的最大模糊性吗？

elasticsearch、fuzzy-search

我试图用弹性搜索来对字符串进行模糊查询。根据此链接()，允许的最大模糊性为2，因此查询将只返回使用Levenshtein距离进行两个编辑的结果。该网站称，Fuzzy查询支持模糊搜索，模糊度大于2，但到目前为止，使用fuzzy查询只允许我在搜索后的两个编辑中搜索结果。这个约束有什么解决办法吗？

浏览 7提问于2015-08-03得票数 1

2回答

从熊猫数据栏中的字符串中提取日期

python、pandas、extract、python-dateutil

我试图从包含字符串的DF列中提取日期，并将其存储在另一列中。from dateutil.parser import parseextract = parse("January 24, 1976", fuzzy_with_tokens=True)以上代码摘录: 1976-01-24 00:00:00 我希望对DF列中的所有字符串执行此操作。以下是我正在尝试但没有发

浏览 20提问于2022-11-17得票数 0

2回答

查找和替换Ruby字符串中的变量

ruby-on-rails、ruby、regex、string、replace

假设我有一根这样的绳子：“” 我猜会需要一个审判官..。寻找什么是正则表达式和如何使用。

浏览 3提问于2010-10-29得票数 1

回答已采纳

1回答

在C# Nest中使用模糊性属性

c#、lucene、elasticsearch、nest

我们正在使用一个查询字符串通过C#中的NEST构建的查询来对Elastic Search进行搜索。似乎在弹性搜索中支持使用离散值0、1或2的模糊属性，但在支持fuzzy_min_sim旧样式的NEST中不支持，该样式的双精度值在0和1之间。有没有办法在NEST中使用新的模糊属性，或者我们应该自己将整数值转换为双精度值并使用fuzzy</e

浏览 1提问于2014-05-06得票数 0

5回答

在Julia中，如何对稀疏矩阵进行列规范化？

matrix、normalization、sparse-matrix、julia

如果我使用sparse(i，j，k)构造函数构造了一个稀疏矩阵，那么如何对矩阵的列进行规范化(使每一列的总和为1)？在创建矩阵之前，我无法有效地对条目进行规范化，因此，如果有任何帮助，我将非常感谢。

浏览 0提问于2014-06-19得票数 4

1回答

斯坦迪泽在机器学习中只选择了几个专栏

machine-learning、normalization、sklearn-pandas

我有一个CSV文件，其中只有少数列需要规范化(其他列是二进制值)。我应该选择性地规范化所需的列，还是应该对表中的所有列进行规范化？如果我对整个表进行规范化，我会丢失一些信息或不需要任何标准化或标准化的数据中引入噪声吗？

浏览 1提问于2020-02-15得票数 0

回答已采纳

1回答

基于条件python的两个大数据集上的模糊模糊字符串匹配

python、pandas、fuzzy-comparison、fuzzywuzzy、large-data

当我尝试在地址字段上使用pandas.merge将这两个DF完全合并时，与行数相比，我得到的匹配数微不足道。所以我想我应该尝试模糊字符串匹配，看看它是否提高了输出匹配的数量。这两个数据集都有"County“字段，我的问题是:有没有一种方法可以在两个DFs中的"addressline”字段上有条件地进行模糊字符串匹配？在研究与我类似的问题时，我偶然发现了这个讨论：然而，我仍然不清楚(没有双关语)如何基于县对字段<e

浏览 23提问于2017-03-17得票数 5

回答已采纳

1回答

如何在Python中通过一次替换、插入或删除来纠正正则表达式

python、regex

我正在尝试使用正则表达式和替换、插入或删除的1个错误距离来更正输入字符串。list(fuzzy_match.fuzzy_changes) 根据我上面的代码，当我打印fuzzy_match_substring时，它应该显示所有匹配的子字符串。在这一点上，我会选择最相关的一个并进行更改(删除一个空格)。但是，当我打印fuzzy_match_substring时，我没有得到所需的子<em

浏览 2提问于2020-08-01得票数 0

1回答

对每列执行操作

python

如何使用循环遍历列，将相同的函数应用于pandas数据帧中的每一列？如何对此代码进行扩展，以便将规范化应用于Cat1...Cat50？

浏览 0提问于2015-04-08得票数 0

1回答

python熊猫用角来规范列，然后分裂成组。

python、pandas、keras

具有以下数据框架(实际数据框架包含多个字符串和数字列)：0 A 102 B 5我希望根据列值对数据进行规范化，结果如下所示但是我正在为规范化而奋斗。我尝试使用以下代码：df = pd.DataFrame({"col1":["A","A","B&

浏览 0提问于2020-04-22得票数 1

回答已采纳

1回答

如何检查pandas列中的日期格式

python、pandas

好的，我在pandas表中有一列，它是我从CSV文件中创建的，我正在尝试浏览并检查每个单元格是否都是一个日期。它们中的大多数都是，但也有一些例外，我想从这篇专栏文章中删除。我可以使用dateutil工具和以下取自另一个论坛的代码来插入单个单元格，并检查它是否为日期： def is_date(string我想做的是使用try循环检查列中的每个单元格，

浏览 2提问于2020-02-19得票数 0

4回答

Lucene查询: bla~ (匹配以模糊开头的单词)，如何？*

lucene、wildcard、fuzzy-search

在Lucene查询语法中，我想将*和~合并到一个类似于: bla~* //无效查询的有效查询中<fieldtype name="text_ngrams" class="solr.TextField"> <analyzer" splitOnCaseChange=&

浏览 2提问于2010-04-13得票数 10

回答已采纳

3回答

朱莉娅中矩阵列的规范化方法

julia、linear-algebra、numerical-methods

给定维数为m，n的矩阵A，如何通过Julia中的某些函数或其他过程对该矩阵的列进行规范化(目标是将A的列规范化，使我们的新矩阵具有长度为1的列)？

浏览 7提问于2022-06-14得票数 3

1回答

对混合了文本和数字(然后是更多文本有时)的数据进行自然排序

mysql、sorting、sql-order-by、natural-sort

我正在为一个经营牲畜拍卖的人的网站工作。他将以拍品1，拍品2，拍品3，拍品3a，拍品4，...第100号拍品...批次N。由于这是数字和文本的混合，我首先按长度(LotName)，LotName.*排序，直到我输入一个"add on“动物(由末尾的”a“指定)。*在本网站找到，谢谢！

浏览 0提问于2011-08-03得票数 0

回答已采纳

1回答

从损坏的时间戳列提取年份

python、pandas、dataframe

我正在处理一只熊猫的数据，类似于下面的样本数据。但是，时间戳字段有一点损坏。有时年份是无效的(请参阅Spa记录)，或者有两个条目被输入到字段中(参见Popeyes)。我使用一个函数来确定哪些值可能不包含值日期作为我的起点。然后利用该函数来确定新列应该从哪个值到新列的年份进行子字符串。:param string: s

浏览 3提问于2022-10-24得票数 0

回答已采纳

1回答

如何通过元数据注入使用Pentaho反规格化步骤

pentaho、kettle、pentaho-data-integration、pdi、data-integration

我想对下面的数据进行反规范化。输入Input 所需输出 col1 col2 col3 col4 aaa bbb ccc ddd 我认为在Pentaho中，我们可以使用元数据注入步骤和反规范化步骤来动态地将所有行值反规范化为列

浏览 19提问于2020-09-23得票数 0

回答已采纳

1回答

PySpark在两个数据流上应用函数，并在小型硬件上为数十亿行写入csv。

apache-spark、pyspark

我试图对dfs中的每个字符串对dfc中的每个字符串应用levenshtein函数，并将得到的数据写入csv。问题是，我使用交叉连接创建了这么多行，然后应用该函数，因此我的机器很难编写任何东西(要花费很长时间才能执行)。试图提高写入性能：，我正在过滤交叉连接结果上的一些东西，即LevenshteinDistance小于目标单词的15%的行。使用对

浏览 7提问于2021-12-14得票数 2

回答已采纳

1回答

规范列表/元组数据的多列

python、pandas、list、tuples、normalization

我有一个包含多列元组数据的dataframe。我试图对每列的每一行元组中的数据进行规范化。这是一个列表的例子，但对于元组也应该是相同的概念- df = pd.DataFrame(np.random.randn(5, 10), columns=['a', 'b', 'c', 'd', 'e','b',

浏览 0提问于2020-08-24得票数 1

回答已采纳

点击加载更多