腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1640)
视频
沙龙
1
回答
如何
让
Spacy
停止
将
连
字符
数字
和
单词
拆
分为
单独
的
标记
?
python
、
regex
、
tokenize
、
spacy
谢谢你
的
关注。我正在使用
spaCy
对一段文本执行命名实体识别,并且我遇到了一个似乎无法克服
的
特殊问题。下面是一个示例代码: from
spacy
.tokenizer import Tokenizer doc = nlp('The Indo-European我
的
问题是,我需要那些包含
连
字符
的
单词
和
数字
浏览 25
提问于2020-01-31
得票数 3
回答已采纳
1
回答
空间实体规则不适用于基数(社会保障号码)
python-3.x
、
spacy
、
named-entity-recognition
我已经使用实体规则添加了新
的
社保号码标签。我甚至设置了overwrite_ents=true,但它仍然无法识别text = "My name is yuyyvb and I leave on 605 W Clinton Street.My social security 690-96-4032"ru
浏览 4
提问于2019-09-30
得票数 2
1
回答
对
单词
进行切分,并对文本中
的
连
字符
和
撇号
单词
进行分组
text-processing
、
information-retrieval
我需要从文本中切分
单词
。有时,
连
字符
的
单词
不带
连
字符
,撇号
的
单词
不带撇号。还有类似的问题,比如相同
单词
的
不同拼写问题(例如:颜色,颜色),或者单个
单词
之间有空格(例如:最多,最多,空格,空格)。我需要将这些变体分组为一个
单独
的
表示,并将其插入到set/hashmap或其他位置。没有重音
字符
的
重音<em
浏览 1
提问于2012-02-15
得票数 5
回答已采纳
1
回答
WhitespaceTokenizerFactory与StandardTokenizerFactory
的
区别
solr
、
tokenize
我是Solr
的
新手。通过阅读Solr
的
维基,我无法理解WhitespaceTokenizerFactory
和
StandardTokenizerFactory之间
的
区别。他们真正
的
区别是什么?
浏览 1
提问于2012-06-25
得票数 11
回答已采纳
1
回答
spaCy
'IS_SPACE‘标志不工作
spacy
一直试图在
spaCy
上匹配“125.00美元/股”之类
的
东西,使用基于规则
的
匹配,如这里提到
的
。00 /份额)我
的</
浏览 1
提问于2017-11-20
得票数 1
回答已采纳
1
回答
如何
在
Spacy
语言模型中为空白空间添加
标记
程序异常
python-3.x
、
nlp
、
whitespace
、
tokenize
、
spacy
下面是我接受用户输入
的
代码。input("please enter your text or words here")print([t.text for t in doc])('Deep', 'Learning')
如何
在nlp中添加空白异常?
浏览 0
提问于2018-12-12
得票数 2
1
回答
spaCy
:
如何
在
单词
标记
器中实现特殊
的
查找?
python
、
spacy
我正在开发一个文本语料库,其中许多
单独
的
标记
包含像: - ) ( @这样
的
标点符号。例如,TMI-Cu(OH)。因此,我希望自定义
标记
器,以避免在: - ) ( @上拆分,如果它们被
数字
/字母紧紧包围(没有空格)。import refrom
spa
浏览 1
提问于2022-04-29
得票数 1
1
回答
spacy
.lang.en
和
load('en')有什么区别?
python
、
nlp
、
jupyter-notebook
、
spacy
在我关于NLP
的
研究中,更具体地说是
spacy
库,我对此感到困惑,from
spacy
.lang.en import English()
和
spacy
.load('en')之间有什么区别,它是
如何
工作
的
?
浏览 1
提问于2019-10-03
得票数 6
1
回答
对于使用Prodigy注释
的
整数/日期值,
spaCy
模型是否也了解值
的
范围?
nlp
、
spacy
、
named-entity-recognition
、
prodigy
我设置了一个神童会话来注释文档中
的
某些
数字
值(范围从0到100)。我只是在注释这个
数字
。我
的
问题是,假设有一个腐败
的
价值潜移默化(年龄是1000岁或22.7岁),这个模型是否会明白,即使它接近文件中
的
年龄文本,也不应该被捡起来? 换句话说,它能学习整数值
的
范围吗?例如,dd/mm/yyyy格式
的
日期是道布(所有注释
的
日期都是< 01/01/2000),还有一个日期为31/12
浏览 3
提问于2021-03-23
得票数 1
回答已采纳
3
回答
使用
连
字符
的
Solr精确搜索
search
、
solr
、
lucene
我正试图在仅包含
字符
串1604-04
的
标题中搜索Solr中
的
一个术语。但结果是任何包含1604或04
的
内容都会回来。使用什么语法来强制solr搜索1604-04的确切
字符
串?
浏览 0
提问于2016-11-22
得票数 1
回答已采纳
6
回答
排除R中
连
字符
的
正则表达式
regex
、
r
我使用R对一组文本进行
标记
化;在
标记
化之后,我得到了一个
字符
向量,其中保留了标点符号、撇号
和
连
字符
。现在,为了去掉标点符号,我执行了以下操作这就是说,我
将
所有不是字母
数字
值、空格
和
撇号
的
内容都替换为""Apple"
浏览 0
提问于2015-07-11
得票数 4
1
回答
使用
spaCy
匹配器不工作
的
简单示例
spacy
我试图使用
spaCy
Matcher获得以下简单示例:from
spacy
.matcher import Matcher 但是,没有一个模式是匹配
的
,
spaCy
示例代码中提供
的
简单"Hello“
浏览 0
提问于2017-11-30
得票数 6
回答已采纳
1
回答
标点符号
和
近邻查询
marklogic
、
marklogic-9
当我在我
的
cts:word-query中打开punctuation-insensitive时,即使这样,NEAR查询也会将-
单词
分解成两个
单词
<abstracts count设置为3时,它不匹配comparative
和
study,即使距离是3,而我使用
的
是punctuation-insensitive。我还想在word-query中实现,比方说placebo-controlled
和
placebo controlled。我想,一旦我打开punctuat
浏览 6
提问于2018-07-27
得票数 0
回答已采纳
1
回答
用
数字
过滤
单词
,用Lucene检索2克
和
1克
java
、
lucene
、
tokenize
、
n-gram
我试图使用Lucene (5.5.0)进行
字符
串
标记
(没有索引)。我需要: 这些可能
和
Lucene有关吗?
浏览 3
提问于2016-02-23
得票数 1
回答已采纳
1
回答
使用
spacy
,
如何
确保字母序列永远不会被分割成
标记
python
、
nlp
、
tokenize
、
spacy
我正在寻找一种方法,以确保无论何时序列"#*"出现在文本中,
spacy
都会给我
标记
"#*"。我尝试了所有可能
的
方法来添加add_special_case
的
特殊情况,使用prefix_search,suffix_search,infix_finditer
和
token_match构建一个自定义
的
标记
器,但仍然存在这样
的
情况,如果一个"#*"出现在一个句子中,即使它被不奇怪
的
<em
浏览 21
提问于2019-11-25
得票数 1
回答已采纳
2
回答
C++分裂
字符
串?
c++
、
string
、
split
我一直在处理C++
字符
串,目前我想知道
如何
分割
字符
串
的
文章和剩下
的
数据。假设我有一条绳子:
如何
将
文章(在本例中为a )拆
分为
单独
的
字符
串,然后
将
所有其他数据内容拆
分为
不同
的
字符
串,在本例中为黄金金币。 请注意,这篇文章有时是
和
,有时没有文章。编辑我不是试图从空间
标记
中
浏览 3
提问于2014-10-10
得票数 0
3
回答
如何
处理任何nlp问题
的
连
字符
英语
单词
?
nlp
、
preprocessing
、
tfidf
、
tokenization
、
bag-of-words
我遇到像“众所周知”这样
的
连
字符
。会有用吗?如果我删除
连
字符
作为特殊
字符
,并把它当作一个
单词
‘众所周知’或在矢量创建过程中,使用所有三个
单词
“好”、“已知”、“知名”作为模型输入。如果能在这方面提供任何快速
的
帮助,我将不胜感激。谢谢。
浏览 0
提问于2020-09-01
得票数 1
1
回答
在Clojure中
标记
字符
串
regex
、
clojure
、
tokenize
我正在尝试使用clojure
标记
字符
串。基本
的
令牌化规则要求
将
字符
串拆
分为
以下
单独
的
符号: 每个非
单词
字符
都是一个
单独
的</e
浏览 3
提问于2014-06-05
得票数 1
1
回答
在预处理文本时处理作为
连
字符
的
一部分
的
停止
词
python
、
nlp
、
spacy
、
stop-words
在预处理文本时,先删除特殊
字符
,然后删除
停止
词,然后
将
add-on
和
non-committal等词分别转换为add
和
committal。处理这些个案
的
最佳方法是甚麽?
浏览 3
提问于2022-11-11
得票数 -1
回答已采纳
2
回答
无法删除空白空间(在使用lettering.js拆分div之后)
javascript
、
jquery
、
html
、
css
所以我得到了一些div,我
和
分
拆
了。这只是
将
一个元素拆
分为
包含单个
字符
的
<span>。 当我得到一个包含多个
单词
(如"Hello!“)
的
字符
串时,lettering.js将为
单词
之间
的
空间创建一个
单独
的
跨度。这个跨度不会有一个宽度,因为它
的
“空”→之间没有空格。因此,从理论上讲,我应该能够使用span:blank选择那些“空
浏览 1
提问于2019-08-28
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教你用Python进行自然语言处理
NPL 太难怎么办?教你 8 步实现代码编写!
自然语言处理是如何工作的?一步步教你构建 NLP 流水线
老司机都开火箭了!Cython 助力 Python NLP 实现百倍加速
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券