如何让Spacy停止将连字符数字和单词拆分为单独的标记？

python、regex、tokenize、spacy

谢谢你的关注。我正在使用spaCy对一段文本执行命名实体识别，并且我遇到了一个似乎无法克服的特殊问题。下面是一个示例代码： from spacy.tokenizer import Tokenizer doc = nlp('The Indo-European我的问题是，我需要那些包含连字符的单词和数字

浏览 25提问于2020-01-31得票数 3

回答已采纳

1回答

空间实体规则不适用于基数(社会保障号码)

python-3.x、spacy、named-entity-recognition

我已经使用实体规则添加了新的社保号码标签。我甚至设置了overwrite_ents=true，但它仍然无法识别text = "My name is yuyyvb and I leave on 605 W Clinton Street.My social security 690-96-4032"ru

浏览 4提问于2019-09-30得票数 2

1回答

对单词进行切分，并对文本中的连字符和撇号单词进行分组

text-processing、information-retrieval

我需要从文本中切分单词。有时，连字符的单词不带连字符，撇号的单词不带撇号。还有类似的问题，比如相同单词的不同拼写问题(例如:颜色，颜色)，或者单个单词之间有空格(例如:最多，最多，空格，空格)。我需要将这些变体分组为一个单独的表示，并将其插入到set/hashmap或其他位置。没有重音字符的重音<em

浏览 1提问于2012-02-15得票数 5

回答已采纳

1回答

WhitespaceTokenizerFactory与StandardTokenizerFactory的区别

solr、tokenize

我是Solr的新手。通过阅读Solr的维基，我无法理解WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别。他们真正的区别是什么？

浏览 1提问于2012-06-25得票数 11

回答已采纳

1回答

spaCy 'IS_SPACE‘标志不工作

spacy

一直试图在spaCy上匹配“125.00美元/股”之类的东西，使用基于规则的匹配，如这里提到的。00 /份额)我的</

浏览 1提问于2017-11-20得票数 1

回答已采纳

1回答

如何在Spacy语言模型中为空白空间添加标记程序异常

python-3.x、nlp、whitespace、tokenize、spacy

下面是我接受用户输入的代码。input("please enter your text or words here")print([t.text for t in doc])('Deep', 'Learning') 如何在nlp中添加空白异常？

浏览 0提问于2018-12-12得票数 2

1回答

spaCy:如何在单词标记器中实现特殊的查找？

python、spacy

我正在开发一个文本语料库，其中许多单独的标记包含像: - ) ( @这样的标点符号。例如，TMI-Cu(OH)。因此，我希望自定义标记器，以避免在: - ) ( @上拆分，如果它们被数字/字母紧紧包围(没有空格)。import refrom spa

浏览 1提问于2022-04-29得票数 1

1回答

spacy.lang.en和load('en')有什么区别？

python、nlp、jupyter-notebook、spacy

在我关于NLP的研究中，更具体地说是spacy库，我对此感到困惑，from spacy.lang.en import English()和spacy.load('en')之间有什么区别，它是如何工作的？

浏览 1提问于2019-10-03得票数 6

1回答

对于使用Prodigy注释的整数/日期值，spaCy模型是否也了解值的范围？

nlp、spacy、named-entity-recognition、prodigy

我设置了一个神童会话来注释文档中的某些数字值(范围从0到100)。我只是在注释这个数字。我的问题是，假设有一个腐败的价值潜移默化(年龄是1000岁或22.7岁)，这个模型是否会明白，即使它接近文件中的年龄文本，也不应该被捡起来？换句话说，它能学习整数值的范围吗?例如，dd/mm/yyyy格式的日期是道布(所有注释的日期都是< 01/01/2000)，还有一个日期为31/12&#

浏览 3提问于2021-03-23得票数 1

回答已采纳

3回答

使用连字符的Solr精确搜索

search、solr、lucene

我正试图在仅包含字符串1604-04的标题中搜索Solr中的一个术语。但结果是任何包含1604或04的内容都会回来。使用什么语法来强制solr搜索1604-04的确切字符串？

浏览 0提问于2016-11-22得票数 1

回答已采纳

6回答

排除R中连字符的正则表达式

regex、r

我使用R对一组文本进行标记化；在标记化之后，我得到了一个字符向量，其中保留了标点符号、撇号和连字符。现在，为了去掉标点符号，我执行了以下操作这就是说，我将所有不是字母数字值、空格和撇号的内容都替换为""Apple"

浏览 0提问于2015-07-11得票数 4

1回答

使用spaCy匹配器不工作的简单示例

spacy

我试图使用spaCy Matcher获得以下简单示例：from spacy.matcher import Matcher 但是，没有一个模式是匹配的，spaCy示例代码中提供的简单"Hello“

浏览 0提问于2017-11-30得票数 6

回答已采纳

1回答

当我在我的cts:word-query中打开punctuation-insensitive时，即使这样，NEAR查询也会将-单词分解成两个单词 <abstracts count设置为3时，它不匹配comparative和study，即使距离是3，而我使用的是punctuation-insensitive。我还想在word-query中实现，比方说placebo-controlled和placebo controlled。我想，一旦我打开punctuat

浏览 6提问于2018-07-27得票数 0

回答已采纳

1回答

用数字过滤单词，用Lucene检索2克和1克

java、lucene、tokenize、n-gram

我试图使用Lucene (5.5.0)进行字符串标记(没有索引)。我需要：这些可能和Lucene有关吗？

浏览 3提问于2016-02-23得票数 1

回答已采纳

1回答

使用spacy，如何确保字母序列永远不会被分割成标记

python、nlp、tokenize、spacy

我正在寻找一种方法，以确保无论何时序列"#*"出现在文本中，spacy都会给我标记"#*"。我尝试了所有可能的方法来添加add_special_case的特殊情况，使用prefix_search，suffix_search，infix_finditer和token_match构建一个自定义的标记器，但仍然存在这样的情况，如果一个"#*"出现在一个句子中，即使它被不奇怪的<em

浏览 21提问于2019-11-25得票数 1

回答已采纳

2回答

C++分裂字符串？

c++、string、split

我一直在处理C++字符串，目前我想知道如何分割字符串的文章和剩下的数据。假设我有一条绳子：如何将文章(在本例中为a )拆分为单独的字符串，然后将所有其他数据内容拆分为不同的字符串，在本例中为黄金金币。请注意，这篇文章有时是和，有时没有文章。编辑我不是试图从空间标记中

浏览 3提问于2014-10-10得票数 0

3回答

如何处理任何nlp问题的连字符英语单词？

nlp、preprocessing、tfidf、tokenization、bag-of-words

我遇到像“众所周知”这样的连字符。会有用吗？如果我删除连字符作为特殊字符，并把它当作一个单词‘众所周知’或在矢量创建过程中，使用所有三个单词“好”、“已知”、“知名”作为模型输入。如果能在这方面提供任何快速的帮助，我将不胜感激。谢谢。

浏览 0提问于2020-09-01得票数 1

1回答

在Clojure中标记字符串

regex、clojure、tokenize

我正在尝试使用clojure标记字符串。基本的令牌化规则要求将字符串拆分为以下单独的符号：每个非单词字符都是一个单独的</e

浏览 3提问于2014-06-05得票数 1

1回答

在预处理文本时处理作为连字符的一部分的停止词

python、nlp、spacy、stop-words

在预处理文本时，先删除特殊字符，然后删除停止词，然后将add-on和non-committal等词分别转换为add和committal。处理这些个案的最佳方法是甚麽？

浏览 3提问于2022-11-11得票数 -1

回答已采纳

2回答

无法删除空白空间(在使用lettering.js拆分div之后)

javascript、jquery、html、css

所以我得到了一些div，我和分拆了。这只是将一个元素拆分为包含单个字符的<span>。当我得到一个包含多个单词(如"Hello！“)的字符串时，lettering.js将为单词之间的空间创建一个单独的跨度。这个跨度不会有一个宽度，因为它的“空”→之间没有空格。因此，从理论上讲，我应该能够使用span:blank选择那些“空

浏览 1提问于2019-08-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

空间实体规则不适用于基数(社会保障号码)

对单词进行切分，并对文本中的连字符和撇号单词进行分组

WhitespaceTokenizerFactory与StandardTokenizerFactory的区别

spaCy 'IS_SPACE‘标志不工作

如何在Spacy语言模型中为空白空间添加标记程序异常

spaCy:如何在单词标记器中实现特殊的查找？

spacy.lang.en和load('en')有什么区别？

对于使用Prodigy注释的整数/日期值，spaCy模型是否也了解值的范围？

使用连字符的Solr精确搜索

排除R中连字符的正则表达式

使用spaCy匹配器不工作的简单示例

标点符号和近邻查询

用数字过滤单词，用Lucene检索2克和1克

使用spacy，如何确保字母序列永远不会被分割成标记

C++分裂字符串？

如何处理任何nlp问题的连字符英语单词？

在Clojure中标记字符串

在预处理文本时处理作为连字符的一部分的停止词

无法删除空白空间(在使用lettering.js拆分div之后)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐