腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
使用
scikit-learn
`
s
的
术语
文档
矩阵
时
,
如何
防止
连
字符
的
单词
被
标记
化
?
python
、
scikit-learn
、
nlp
、
term-document-matrix
我目前正在处理一个大型
的
文章语料库(大约205,000篇),这需要构建一个
术语
文档
矩阵
。 我环顾四周,似乎sklearn提供了一种有效
的
方式来构建它。但是,当将建议
的
代码应用于一小部分
文档
时
(作为测试),我发现包含
连
字符
的
单词
是分开
的
,以
连
字符
作为分隔符。这是不可取
的
,因为我正在
使用
葡萄牙语<
浏览 33
提问于2021-10-29
得票数 0
2
回答
Gensim - LDA创建
文档
-主题
矩阵
python
、
lda
、
gensim
、
topic-modeling
我正在处理一个项目,其中我需要将主题建模应用于一组
文档
,并且我需要创建一个
矩阵
:我刚接触gensim,到目前为止,我已经创建了一个
文档
列表。2.对
文档
进行预处理和
标记
化
。3.
使用
corpora.Dictio
浏览 0
提问于2016-03-24
得票数 0
1
回答
完全
标记
化
句子,包括标点符号、缩写和
连
字符
单词
python
、
regex
我想完全
标记
化
一句话:“半衰期最长
的
元素是铀-234”教授说。这里所有的标点符号都是分开
的
,但是像“is‘t”和“but’t”这样
的
单词
是一个记号。
连
字符
连接
的
单词
也
被
视为一个
标记
,这正是我想要
的
。目前我正在
使用
它来
标记
化
它: p = re.compile(r"\w+(?:'\w+)?|[^
浏览 28
提问于2021-03-01
得票数 3
回答已采纳
1
回答
R
文档
术语
矩阵
截断
单词
r
、
tm
在
R中
使用
文档
术语
矩阵
似乎是
在
截断
单词
。我从一个语料库创建了一个
文档
术语
矩阵
,如下所示:myDTM[["dimnames"]][[&qu
浏览 8
提问于2019-08-09
得票数 0
2
回答
带撇号
的
Marklogic关键字搜索
marklogic
、
apostrophe
、
marklogic-8
我们
使用
的
是MarkLogic8.0-3,我们
的
数据库中有很多包含"McDonalds“和"McDonald'
s
”
的
文档
。当搜索"McDonalds“或"McDonald'
s
”
时
,我期望得到相同
的
结果。但是,即使我将它们设置为不区分标点符号,它们也不会给出相同
的
结果。term-option>punctuation-insensitive<
浏览 0
提问于2016-07-29
得票数 1
1
回答
标点符号和近邻查询
marklogic
、
marklogic-9
当我
在
我
的
cts:word-query中打开punctuation-insensitive
时
,即使这样,NEAR查询也会将-
单词
分解成两个
单词
但当我也切换到punctuation-sensitive
时
,即使<e
浏览 6
提问于2018-07-27
得票数 0
回答已采纳
1
回答
找不到与文本对齐
的
区别。
css
如果是的话,有没有办法改变大多数浏览器中文字之间
的
间距/角化
的
方式?我一直
在
测试一些用"text-align: justify"和"text-justify: (字间、分发、报纸等)格式
化
的
文本段落“,它们对文本没有任何影响。我
在
Google、火狐和Safari上
使用
iMac进行了测试。 有什么想法吗?谢谢!
浏览 7
提问于2014-04-09
得票数 1
回答已采纳
1
回答
如何
在AWS Cloudsearch中执行包含符号
的
结构
化
查询
amazon-web-services
、
amazon-cloudsearch
我试图
在
Cloudsearch中执行结构
化
前缀查询。下面是查询args
的
一个片段(csattribute是文本类型
的
) "query": "(prefix field=csattribute '12-3')", "size": 5我
的
上述查询将导致No matches for "(pre
浏览 2
提问于2020-08-03
得票数 0
回答已采纳
2
回答
基于TDM/DTM
的
情感分析
r
、
text-mining
、
data-analysis
、
sentiment-analysis
、
sentimentr
我正在尝试
在
我
的
DTM (
文档
术语
矩阵
)或TDM (
术语
文档
矩阵
)
的
帮助下在R中应用情感分析。我
在
论坛和谷歌上找不到任何类似的话题。因此,我创建了一个语料库,并从该语料库中生成了R中
的
dtm/tdm。我
的
下一步是应用情感分析,稍后通过SVM进行股票预测所需
的
情感分析。TermDocumentMatrix(docs) tdm <- remov
浏览 43
提问于2019-06-10
得票数 0
回答已采纳
6
回答
排除R中
连
字符
的
正则表达式
regex
、
r
我
使用
R对一组文本进行
标记
化
;
在
标记
化
之后,我得到了一个
字符
向量,其中保留了标点符号、撇号和
连
字符
。
在
标记
化
(我
使用
tm包中
的
scan_tokenizer执行)之后,我得到了以下
字符
向量 [1] "this" "ain't"
浏览 0
提问于2015-07-11
得票数 4
1
回答
如何
在Spark中对一堆
文档
进行矢量化
apache-spark
我是Apache Spark
的
新手。我有一堆文本
文档
,想把它们转换成稀疏TF矢量化
文档
。也就是说,我希望生成一个
矩阵
,其中列显示
单词
(
术语
),行描述
文档
,每个元素是
术语
在
文档
中
的
词频(按列显示)(按行显示)。我注意到TFHashing类做了这样
的
事情,但是我不知道
如何
使用
它。我想传递一个包含所有文本
文档
的
文件夹
浏览 0
提问于2015-03-20
得票数 0
1
回答
nlp多标签分类tf vs tfidf
python
、
nlp
、
tf-idf
、
multilabel-classification
、
tfidfvectorizer
我有大量
的
文档
,这些
文档
应该分为29个类别。我解决这个问题
的
方法是,
在
清理文本、停止
单词
删除、
标记
化
等之后,执行以下操作: 为了创建特征
矩阵
,我查看了每个
文档
中
术语
的
频率分布,然后创建了这些
术语
的
表(其中删除了重复
的
术语
),然后计算了每个
单词
在其相应文本中
的
术语</e
浏览 29
提问于2019-02-12
得票数 4
回答已采纳
2
回答
在
未
标记
的
文本语料库上训练Spacy以提取“重要短语”
python
、
nlp
、
spacy
我正在寻找一种从文本
文档
中提取“重要短语”
的
方法。我希望
使用
Spacy来做到这一点,但有一个警告:我
的
数据主要包含产品信息,因此重要
的
短语与自然口语中
的
不同。出于这个原因,我想在我自己
的
语料库上训练spacy,但我能找到
的
唯一信息是。 有没有人知道我想做
的
事情是不是可能
的
?
浏览 2
提问于2021-03-04
得票数 5
1
回答
在
查找
字符
串中
的
单词
时计算
术语
文档
矩阵
。
r
、
text-mining
、
tm
、
term-document-matrix
我想像下面解释
的
那样稍微调整一下。 目前,任何
术语
文档
矩阵
都是通过
在
文档
中寻找一个
单词
,例如“milky”作为单独
的
单词
(而不是
字符
串)来创建
的
。(tm包),'milky‘将在第一个
文档
中找到,而在第二个
文档
中不会找到,因为该算法将
术语
milky作为一个单独
的
单词
来查找。grepl('mil
浏览 1
提问于2015-10-13
得票数 1
1
回答
使用
XQuery进行模式匹配
regex
、
xpath
、
xquery
我有一个包含文本信息
的
200MB大小
的
XML
文档
。数据早些时候存储
在
具有2列
的
pagemaker文件中。
标记
后,我发现某些文本有
连
字符
。这是因为无法匹配格式
的
单词
被
分成两个
单词
,用
连
字符
分隔。此外,此XML
文档
使用
连
字符
还有另一个原因。到单独
的
短句(用于注释
浏览 1
提问于2012-06-11
得票数 3
回答已采纳
3
回答
弹性搜索给出奇怪
的
结果
elasticsearch
我遵循关于弹性搜索
的
教程。两名雇员
的
“约”价值如下:“关于”:“我喜欢收集摇滚专辑” 第二个不是应该有更高
的
分数,因为它有‘关于’价值包含‘岩石’和‘
浏览 1
提问于2018-05-12
得票数 1
回答已采纳
2
回答
Python NLP:
如何
将
标记
化
的
文本映射回原始结构?
python
、
list
、
matrix
、
nlp
、
text-mining
目标:对
标记
化
的
文本进行矢量化,以创建
术语
文档
矩阵
,从而能够对非结构
化
文本数据进行NLP分析。预测和文本分类将是分析
的
重要部分,因此能够将标签/类别与每个文本相关联是至关重要
的
。为此,我需要对
术语
文档
矩阵
进行结构
化
,使每行表示一个文本,每列表示出现在整个语料库中
的
一个
单词
。文本
的
类/标签也将
浏览 1
提问于2014-09-15
得票数 0
3
回答
在
elasticSearch中,无法搜索带有特殊
字符
'-‘
的
名称
elasticsearch
我试着
在
弹性搜索中搜索名字,通常我们用* na搜索名字,我试着这样搜索- "/index/party_details/_search?
浏览 3
提问于2014-03-19
得票数 1
1
回答
StandardTokenizerFactory和KeywordTokenizerFactory
在
Solr中
的
差异?
java
、
solr
、
solrnet
、
tokenize
我是Solr.I
的
新手,我想知道什么时候
使用
StandardTokenizerFactory和KeywordTokenizerFactory 我读了Apache上
的
文档
,但我不明白。有人能解释一下与StandardTokenizerFactory和KeywordTokenizerFactory
的
区别吗?
浏览 6
提问于2011-10-04
得票数 17
回答已采纳
3
回答
蓝色搜索与破折号
azure
、
azure-cognitive-search
我正在
使用
Azure搜索,并试图对
文档
执行搜索:我能让它工作
的
唯一方法是这样做(注意双引号):/indexes/blah/docs?api-version=2015-02-28&search="abc-1003" 我不想这样
浏览 7
提问于2016-06-02
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用 Scikit Learn 为机器学习准备文本数据
实例教程:如何用自然语言处理来预测垃圾邮件?
Keras文本分类实战(下)
入门 NLP 项目前,你必须掌握哪些理论知识?
程序员保命指南:Google Java编程风格规范
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券