腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
fuzzy
对
列
的
字符串
进行
规范化
python
、
pandas
、
fuzzywuzzy
-2020 Mexico Tulum 2344 Cola Cola fuzz.parti
浏览 18
提问于2021-01-24
得票数 0
0
回答
将函数应用于列表中
的
一
对
元素
python-3.x
、
list
、
loops
、
iterator
我有一个类似如下
的
字符串
列表: "apple, mangos and morewith more red and black",我想按顺序
对
这些
字符串
进行
模糊匹配,比如
浏览 4
提问于2018-07-11
得票数 1
回答已采纳
1
回答
在elasticsearch中,有什么方法可以增加模糊查询
的
最大模糊性吗?
elasticsearch
、
fuzzy-search
我试图用弹性搜索来
对
字符串
进行
模糊查询。根据此链接(),允许
的
最大模糊性为2,因此查询将只返回
使用
Levenshtein距离
进行
两个编辑
的
结果。该网站称,
Fuzzy
查询支持模糊搜索,模糊度大于2,但到目前为止,
使用
fuzzy
查询只允许我在搜索后
的
两个编辑中搜索结果。这个约束有什么解决办法吗?
浏览 7
提问于2015-08-03
得票数 1
2
回答
从熊猫数据栏中
的
字符串
中提取日期
python
、
pandas
、
extract
、
python-dateutil
我试图从包含
字符串
的
DF
列
中提取日期,并将其存储在另一
列
中。from dateutil.parser import parseextract = parse("January 24, 1976",
fuzzy
_with_tokens=True)以上代码摘录: 1976-01-24 00:00:00 我希望
对
DF
列
中
的
所有
字符串
执行此操作。以下是我正在尝试但没有发
浏览 20
提问于2022-11-17
得票数 0
2
回答
查找和替换Ruby
字符串
中
的
变量
ruby-on-rails
、
ruby
、
regex
、
string
、
replace
假设我有一根这样
的
绳子:“” 我猜会需要一个审判官..。寻找什么是正则表达式和如何
使用
。
浏览 3
提问于2010-10-29
得票数 1
回答已采纳
1
回答
在C# Nest中
使用
模糊性属性
c#
、
lucene
、
elasticsearch
、
nest
我们正在
使用
一个查询
字符串
通过C#中
的
NEST构建
的
查询来
对
Elastic Search
进行
搜索。似乎在弹性搜索中支持
使用
离散值0、1或2
的
模糊属性,但在支持
fuzzy
_min_sim旧样式
的
NEST中不支持,该样式
的
双精度值在0和1之间。有没有办法在NEST中
使用
新
的
模糊属性,或者我们应该自己将整数值转换为双精度值并
使用
fuzzy</e
浏览 1
提问于2014-05-06
得票数 0
5
回答
在Julia中,如何
对
稀疏矩阵
进行
列
规范化
?
matrix
、
normalization
、
sparse-matrix
、
julia
如果我
使用
sparse(i,j,k)构造函数构造了一个稀疏矩阵,那么如何
对
矩阵
的
列
进行
规范化
(使每一
列
的
总和为1)?在创建矩阵之前,我无法有效地
对
条目
进行
规范化
,因此,如果有任何帮助,我将非常感谢。
浏览 0
提问于2014-06-19
得票数 4
1
回答
斯坦迪泽在机器学习中只选择了几个专栏
machine-learning
、
normalization
、
sklearn-pandas
我有一个CSV文件,其中只有少数列需要
规范化
(其他
列
是二进制值)。我应该选择性地
规范化
所需
的
列
,还是应该对表中
的
所有
列
进行
规范化
?如果我
对
整个表
进行
规范化
,我会丢失一些信息或不需要任何标准化或标准化
的
数据中引入噪声吗?
浏览 1
提问于2020-02-15
得票数 0
回答已采纳
1
回答
基于条件python
的
两个大数据集上
的
模糊模糊
字符串
匹配
python
、
pandas
、
fuzzy-comparison
、
fuzzywuzzy
、
large-data
当我尝试在地址字段上
使用
pandas.merge将这两个DF完全合并时,与行数相比,我得到
的
匹配数微不足道。所以我想我应该尝试模糊
字符串
匹配,看看它是否提高了输出匹配
的
数量。这两个数据集都有"County“字段,我
的
问题是:有没有一种方法可以在两个DFs中
的
"addressline”字段上有条件地
进行
模糊
字符串
匹配?在研究与我类似的问题时,我偶然发现了这个讨论: 然而,我仍然不清楚(没有双关语)如何基于县
对
字段<e
浏览 23
提问于2017-03-17
得票数 5
回答已采纳
1
回答
如何在Python中通过一次替换、插入或删除来纠正正则表达式
python
、
regex
我正在尝试
使用
正则表达式和替换、插入或删除
的
1个错误距离来更正输入
字符串
。list(
fuzzy
_match.
fuzzy
_changes) 根据我上面的代码,当我打印
fuzzy
_match_substring时,它应该显示所有匹配
的
子
字符串
。在这一点上,我会选择最相关
的
一个并
进行
更改(删除一个空格)。但是,当我打印
fuzzy
_match_substring时,我没有得到所需
的
子<em
浏览 2
提问于2020-08-01
得票数 0
1
回答
对
每
列
执行操作
python
如何
使用
循环遍历
列
,将相同
的
函数应用于pandas数据帧中
的
每一
列
?如何对此代码
进行
扩展,以便将
规范化
应用于Cat1...Cat50?
浏览 0
提问于2015-04-08
得票数 0
1
回答
python熊猫用角来规范
列
,然后分裂成组。
python
、
pandas
、
keras
具有以下数据框架(实际数据框架包含多个
字符串
和数字
列
):0 A 102 B 5我希望根据
列
值对数据
进行
规范化
,结果如下所示但是我正在为
规范化
而奋斗。我尝试
使用
以下代码:df = pd.DataFrame({"col1":["A","A","B&
浏览 0
提问于2020-04-22
得票数 1
回答已采纳
1
回答
如何检查pandas
列
中
的
日期格式
python
、
pandas
好
的
,我在pandas表中有一
列
,它是我从CSV文件中创建
的
,我正在尝试浏览并检查每个单元格是否都是一个日期。它们中
的
大多数都是,但也有一些例外,我想从这篇专栏文章中删除。我可以
使用
dateutil工具和以下取自另一个论坛
的
代码来插入单个单元格,并检查它是否为日期: def is_date(string我想做
的
是
使用
try循环检查
列
中
的
每个单元格,
浏览 2
提问于2020-02-19
得票数 0
4
回答
Lucene查询: bla~* (匹配以模糊开头
的
单词),如何?
lucene
、
wildcard
、
fuzzy-search
在Lucene查询语法中,我想将*和~合并到一个类似于: bla~* //无效查询
的
有效查询中<fieldtype name="text_ngrams" class="solr.TextField"> <analyzer" splitOnCaseChange=&
浏览 2
提问于2010-04-13
得票数 10
回答已采纳
3
回答
朱莉娅中矩阵列
的
规范化
方法
julia
、
linear-algebra
、
numerical-methods
给定维数为m,n
的
矩阵A,如何通过Julia中
的
某些函数或其他过程
对
该矩阵
的
列
进行
规范化
(目标是将A
的
列
规范化
,使我们
的
新矩阵具有长度为1
的
列
)?
浏览 7
提问于2022-06-14
得票数 3
1
回答
对
混合了文本和数字(然后是更多文本*有时*)
的
数据
进行
自然排序
mysql
、
sorting
、
sql-order-by
、
natural-sort
我正在为一个经营牲畜拍卖的人
的
网站工作。他将以拍品1,拍品2,拍品3,拍品3a,拍品4,...第100号拍品...批次N。由于这是数字和文本
的
混合,我首先按长度(LotName),LotName.*排序,直到我输入一个"add on“动物(由末尾
的
”a“指定)。*在本网站找到,谢谢!
浏览 0
提问于2011-08-03
得票数 0
回答已采纳
1
回答
从损坏
的
时间戳
列
提取年份
python
、
pandas
、
dataframe
我正在处理一只熊猫
的
数据,类似于下面的样本数据。但是,时间戳字段有一点损坏。有时年份是无效
的
(请参阅Spa记录),或者有两个条目被输入到字段中(参见Popeyes)。 我
使用
一个函数来确定哪些值可能不包含值日期作为我
的
起点。然后利用该函数来确定新
列
应该从哪个值到新
列
的
年份
进行
子
字符串
。:param string: s
浏览 3
提问于2022-10-24
得票数 0
回答已采纳
1
回答
如何通过元数据注入
使用
Pentaho反规格化步骤
pentaho
、
kettle
、
pentaho-data-integration
、
pdi
、
data-integration
我想
对
下面的数据
进行
反
规范化
。输入Input 所需输出 col1 col2 col3 col4 aaa bbb ccc ddd 我认为在Pentaho中,我们可以
使用
元数据注入步骤和反
规范化
步骤来动态地将所有行值反
规范化
为
列
浏览 19
提问于2020-09-23
得票数 0
回答已采纳
1
回答
PySpark在两个数据流上应用函数,并在小型硬件上为数十亿行写入csv。
apache-spark
、
pyspark
我试图
对
dfs中
的
每个
字符串
对
dfc中
的
每个
字符串
应用levenshtein函数,并将得到
的
数据写入csv。问题是,我
使用
交叉连接创建了这么多行,然后应用该函数,因此我
的
机器很难编写任何东西(要花费很长时间才能执行)。试图提高写入性能: ,我正在过滤交叉连接结果上
的
一些东西,即LevenshteinDistance小于目标单词
的
15%
的
行。
使用
对
浏览 7
提问于2021-12-14
得票数 2
回答已采纳
1
回答
规范列表/元组数据
的
多
列
python
、
pandas
、
list
、
tuples
、
normalization
我有一个包含多
列
元组数据
的
dataframe。我试图
对
每
列
的
每一行元组中
的
数据
进行
规范化
。这是一个列表
的
例子,但对于元组也应该是相同
的
概念- df = pd.DataFrame(np.random.randn(5, 10), columns=['a', 'b', 'c', 'd', 'e','b',
浏览 0
提问于2020-08-24
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券