腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
标记
器
函数
tensorflow
标记
标点符号
、
、
、
、
我
使用
tensorflow
.keras.preprocessing.text中的Tokenizer()
函数
如下: from
tensorflow
.keras.preprocessing.text import{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog&
浏览 11
提问于2020-09-30
得票数 1
回答已采纳
3
回答
使用
空格
标记
器
时删除逗号
当
使用
空格
标记
器
时,一个类似于“那里,他是”的文本。会分成“那里”、“他”和“是”。当然,我希望删除标准令牌程序自动删除的
标点符号
。 我需要
使用
空格
标记
器
,主要是因为我不希望连字符被分割。有什么方法可以在我仍然
使用
标准令牌
器
的同时实现这一点呢?
浏览 4
提问于2014-02-23
得票数 5
1
回答
使NLTK适用于UTF8
标点符号
?
、
、
我刚开始
使用
NLTK,我注意到它对非ascii
标点符号
不起作用。例如,“被
标记
为名词。此外,
使用
非ascii
标点符号
会打乱其余单词的词性
标记
,因为NLTK将“解释为一个单词,而不是
标点符号
。是否有一个设置可以允许NLTK识别非ascii
标点符号
?因为
使用
一个非unicode
标点符号
会弄乱整个文档的词性
标记
,所以我不能只用"替换所有的“。
浏览 1
提问于2015-07-08
得票数 1
1
回答
在删除
标点符号
之前/之后添加POS标签?
、
、
标点符号
是否会影响NLTK的词性
标记
器
的行为?或者,在将句子传递给词性
标记
器
之前,去掉句子中的
标点符号
可以吗?
浏览 18
提问于2019-09-09
得票数 1
回答已采纳
3
回答
如何
在delphi中将字符串转换为数组?
、
、
、
、
在php和java中,有分解和
标记
器
函数
来将字符串转换成没有
标点符号
数组。都是delphi中的
函数
或某种方式来完成这项工作。假设有一个大文件“这是一个带有
标点符号
、空格和数字123的大文件……”
如何
获取数组“这是一个包含
标点符号
、空格和数字123的大文件” 非常提前感谢您。我们是否可以在Tperlregex中
使用
regex来提取\w,并将它们放入Tstringlist中,就像tstringlist是一个数组一样,但它可能不是那么有效?
浏览 2
提问于2010-10-22
得票数 0
回答已采纳
1
回答
WhitespaceTokenizerFactory与StandardTokenizerFactory的区别
、
我是Solr的新手。通过阅读Solr的维基,我无法理解WhitespaceTokenizerFactory和StandardTokenizerFactory之间的区别。他们真正的区别是什么?
浏览 1
提问于2012-06-25
得票数 11
回答已采纳
2
回答
使用
Lucene的StandardTokenizer时保留
标点符号
、
、
、
、
我正在考虑利用Lucene的在非IR上下文中进行单词
标记
化。 我知道这个
标记
器
删除了
标点符号
。有没有人知道(或者碰巧有经验)让它将
标点符号
作为单独的
标记
输出?
浏览 0
提问于2015-02-05
得票数 1
1
回答
如何
使用
标点符号
作为边界
标记
文本(Python)
、
、
我正在
使用
CountVectorizer从sklearn进行文本
标记
(2克),并创建一个术语文档矩阵。
如何
以
标点符号
作为边界将文本
标记
为2克?例如,输入的句子是“这是示例,带有
标点符号
”。我希望
标记
是"this is","is示例“,"with
标点符号
”。我不想要“示例with",它在逗号后面。
浏览 1
提问于2017-09-15
得票数 0
1
回答
向spacy模型添加自定义
标点符号
、
、
、
如何
在
标记
器
的中缀列表中添加自定义
标点符号
(例如星号),并让nlp.explain将其识别为
标点符号
?我希望能够将当前未被识别为
标点符号
的字符添加到集合中缀列表中的
标点符号
列表中,以便匹配器在匹配{'IS_PUNCT': True}时可以
使用
它们。唯一的问题是我无法将新识别的
标点符号
与模型打包在一起。附注:记号赋予
器
已经识别了带有所需
标点符号
的中缀,所以剩下的就是将其传播到Mat
浏览 37
提问于2021-11-04
得票数 0
1
回答
NLP:与标准的单词
标记
器
相比,
使用
子词
标记
器
有什么好处?
、
、
、
我正在看这个
Tensorflow
colab教程,介绍
如何
用Transformers,https://www.
tensorflow
.org/tutorials/text/transformer来翻译语言,他们用一个子单词文本
标记
器
来
标记
这些单词。我以前从未见过一个子词记号
器
,也不知道为什么或什么时候应该
使用
它,而不是单词记号
器
。7915 ----> T 1248 ---->
浏览 0
提问于2020-10-09
得票数 3
回答已采纳
1
回答
标记
化:
如何
在python中不
标记
NLP中的
标点符号
‘^*
、
、
、
、
除了‘*^之外,我想
标记
字符串
标点符号
当我
使用
: text = "hai*ini^ema`il saya lunar!我想要
标记
,但不想
标记
*^
浏览 2
提问于2021-06-16
得票数 0
1
回答
弹性搜索字符组中包含哪些字符(空格、字母、数字、
标点符号
、符号)?
我正在尝试
使用
chargroup
标记
器
来构建一个基于空格和
标点符号
的
标记
器
。我发现,至少有:whitespace,letter,digit,punctuation,symbol。我不知道为什么@被认为是
标点符号
,但我猜它可以在电子邮件地址中被视为
标点符号
吗?例如email@example.com。(或者,是否有一种更优雅的方法可以根据standard
标点符号
列表来区分
标记
?)。
浏览 0
提问于2019-12-22
得票数 7
回答已采纳
1
回答
名称中撇号的
标记
筛选
器
我正在寻找一种方法来将对“刘”、"la'u“和(理想情况下) "la u”的查询与以下数据匹配:我的分析
器
是: folding这将发出以下
标记
,其中显示了修改后的撇号被一个普通的撇号替换: "tokens": [ "token": "la'u","type": "<ALPHANUM&g
浏览 0
提问于2018-04-02
得票数 0
4
回答
解析文本,但保留
标点符号
、
、
、
我正在
使用
这段代码来遍历一些输入的文本,并提取由
标记
分隔的句子:[NSCharacterSet characterSetWithCharactersInString\n"];问题是,结果数组被从
标点符号
中去掉。
如何
使用
适当的
标点符号
存储数据?如果可能的话,我希望保持句子
浏览 3
提问于2013-11-29
得票数 1
回答已采纳
1
回答
如何
从预先训练的变压
器
中获取单词嵌入
、
、
、
、
我正在对多语言数据进行字级分类,我
使用
XLM,我知道XLM
使用
sentencepiece作为
标记
器
,有时将单词
标记
为子单词。例如,句子“欺骗主”被
标记
为de ception master,该词已被
标记
为两个子单词。 我可以将最终隐藏的嵌入
浏览 1
提问于2021-03-26
得票数 0
回答已采纳
1
回答
如何
在ElasticSearch中
使用
ngram通配符
上面的情况不会在我的完全匹配分析
器
上工作,因为查询在末尾缺少了3。我当时的印象是通配符匹配会被打破,但是如果我执行类似于上面的搜索,我就会胡说八道。2.1) .Query(searchQuery)))); Tok
浏览 2
提问于2014-07-09
得票数 5
2
回答
如何
将
标记
化应用于
TensorFlow
数据集?
、
、
、
我正在
使用
属于的数据集。我的目标是在对数据集应用一些文本预处理步骤之后对其进行
标记
化。!pip install
tensorflow
-gpu==2.0.0-alpha0import
tensorflow
_datasets as tfds为了
标记
化数据集,我遇到了
函数
(另请参阅)。我希望
标记
器
简单地拆分空格,而不是将空格视为单独的
标记
浏览 0
提问于2019-05-28
得票数 5
1
回答
用另一个单词替换句子中的单词是可行的,但不能很好地输出
标点符号
、
、
、
、
我
使用
一系列同义词来替换句子中的单词。该
函数
可以工作,但输出有一个小问题 New sentence : 'Un aubercot est bon.'因为我正在做一些相当长的复习,
标点符号
真的很重要。代码如下: def
浏览 3
提问于2021-11-19
得票数 1
1
回答
自动检测HTML字符串中的
标点符号
,并在此处拆分该字符串
、
、
我有一组
标点符号
:
如何
使用
$punctuation数组中的一个字符作为“$max_chr”,将该字符串拆分为最多的键字符?因此,基本上应该在最近的
标点符号
字符处拆分字符串,而不是在HTML
标记
定义/属性中拆分(如果拆分发生在
标记
内容中并且
标记
保持未闭合状态,这并不重要--因为我稍后将检
浏览 5
提问于2011-10-05
得票数 2
回答已采纳
1
回答
句子末尾
标点符号
后面没有空格时的
标记
化
、
我们正在尝试选择一个
标记
器
在我们的注释管道中
使用
。目前,我正在用一些twitter文本测试PTBTokenizer。、“和”识别为单独的
标记
,而是将“test.And”作为单个
标记
。
标记
器
中是否有任何选项或设置可以将句子末尾
标点符号
识别为单个
标记
符,即使后面没有空格? 谢谢。
浏览 2
提问于2018-01-30
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券