腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1406)
视频
沙龙
1
回答
我
应该
如何将
同时
包含
字母
和
数字
的
单词
转
换为
仅
包含
数字
的
单词
,
以便
K-Neighbor
分类
器
可
以对
其
进行
训练
以对
其
进行
分类
?
python
、
machine-learning
、
nearest-neighbor
我
的
训练
数据
包含
如下文本 EMI3776438, U9BA7E, 20FXU84P, 4506067765, N8UZ00351
我
正在使用
K-Neighbor
分类
器
算法。现在,
我
使用
的
方法是将
字母
转
换为
数字
。 例如,a/A将映射到10,b/B将映射到11,c/C将映射到12。在转换之后,
我
将把这个数据发送到K-Ne
浏览 26
提问于2019-02-20
得票数 0
3
回答
如何执行
分类
statistics
、
machine-learning
、
classification
、
weka
、
document-classification
我
正在尝试使用Weka将文档
分类
为两个类别(category1
和
category2)。2)在应用过滤器之后,
我<
浏览 1
提问于2012-09-22
得票数 1
1
回答
标记长度为1
的
单词
,如果
我
做主题建模,会发生什么?
information-retrieval
、
lsi
假设
我
的
数据集
包含
一些非常小
的
文档(每个文档大约20个
单词
)。每种语言都有至少两种语言
的
单词
(例如,马来语
和
英语
的
组合)。另外,它们
的
内部都有一些
数字
。只是出于好奇,虽然通常是
可
定制
的
,但为什么有些标记
器
选择忽略默认情况下仅为
数字
的
标记,或者任何不符合特定长度
的
标记?例如,scikit中<em
浏览 0
提问于2015-12-30
得票数 3
回答已采纳
4
回答
在python中使用朴素贝叶斯
进行
文档
分类
python
、
nltk
、
document-classification
我
正在做一个使用python中
的
朴素贝叶斯
分类
器
进行
文档
分类
的
项目。
我
已经使用了nltk python模块来做同样
的
事情。这些文档来自路透社数据集。
我
执行了词干提取
和
停用字消除等预处理步骤,并继续计算索引项
的
tf-idf。
我
使用这些值来
训练
分类
器
,但准确率非常低(53%)。
我
应该</e
浏览 2
提问于2012-05-09
得票数 2
回答已采纳
3
回答
如何为朴素贝叶斯
分类
器
选择
训练
数据
machine-learning
、
classification
我
想仔细检查一些
我
不确定
的
关于
分类
器
学习
的
训练
集
的
概念。当我们为我们
的
训练
数据选择记录时,我们是为每个类选择相等数量
的
记录,总和为N,还是
应该
随机选择N个记录(与类无关)?直觉上,
我
认为是前者,但认为前一类概率是相等
的
,并且没有真正
的
帮助?
浏览 0
提问于2011-07-05
得票数 5
2
回答
基于文本块
的
NLTK
分类
和
WordNet
python
、
nlp
、
nltk
、
wordnet
、
categorization
我
有以下两套。这个想法是能够根据我提供
的
几个元标签对新闻文章
进行
分类
。例如,当我得到一篇文章,上面有“法官”“5年”,那么它
应该
被归类为犯罪故事。NaiveBayesClassifier(train)for a, b in test:它把所有东西都归类为“汽车”
我
确信我在这里错过了语义相似性
的
比较
我
试着通过文本blob使用WordNet。
我</e
浏览 1
提问于2014-02-07
得票数 4
4
回答
[CLS]令牌
的
用途是什么?为什么它
的
编码输出很重要?
nlp
、
sentiment-analysis
、
bert
、
language-model
、
text-classification
我
正在阅读Jay
的
本文介绍如何使用BERT.,
我
理解了一些事情,直到:日志服务标记不是在每个句子
的
开头吗?为什么“我们只对伯特
的
日志服务令牌输出感兴趣”?有人能帮我把头挪开吗?谢谢!
浏览 0
提问于2020-01-09
得票数 60
回答已采纳
3
回答
使用NLP让系统学习对文本
进行
分类
python
、
nlp
在
我
花大量时间学习这些概念之前,
我
想知道NLP
和
Python
的
NLTK是否可以通过简单地向系统输入文本并告诉它适用
的
类别来帮助我
训练
系统。假设
我
有大约100条文本,
我
想根据它们所描述
的
业务对它们
进行
分类
。有没有办法只向系统指出每个文本描述
的
是什么业务,然后从长远来看,让系统对新文本
进行
越来越准确
的
分类
?
浏览 0
提问于2015-10-13
得票数 3
2
回答
使用NLP过滤错误电子邮件地址
的
方法?
nlp
背景:目标:zzzzzzzzzzzzzzzzz@gmail.comyourenotgettingmyrealemail@gmail.com123@yahoo.com
我</em
浏览 0
提问于2019-07-03
得票数 0
1
回答
基于RNN (LSTM)
的
手势识别系统
neural-network
、
deep-learning
、
keras
、
rnn
、
lstm
我
正在尝试建立一个手势识别系统,用于对ASL (美国手语)手势
进行
分类
,因此
我
的
输入
应该
是从摄像机或视频文件中获得
的
一系列帧,然后它会检测该序列并将其映射到相应
的
类(睡眠、帮助、进食、跑步等)。问题是,
我
已经建立了一个类似的系统,但对于静态图像(不包括运动),它对于翻译
字母
表很有用,因为在这种情况下,构建CNN是一项直接
的
任务,因为手不会移动太多,而且数据集结构也是
可
管理
的
浏览 0
提问于2018-04-25
得票数 11
4
回答
如何为
我
的
模型选择
训练
过
的
重量?
deep-learning
、
classification
、
pre-trained-model
、
transfer-learning
我
是一个初学者,
我
非常困惑,我们如何能够选择一个预先培训
的
模式,将改进
我
的
模式。
我
试图创建一个猫品种
分类
器使用预先
训练
的
权重模型,假设VGG16
训练
的
数字
数据集,这会改善模型
的
性能吗?或者,如果
我
只是在数据库上
训练
我
的
模型,而不使用任何其他
的
权重,那么更好,或者两者都和那些
浏览 0
提问于2019-08-06
得票数 9
回答已采纳
8
回答
我
想要一台机器来学习对短文本
进行
分类
machine-learning
、
nlp
、
classification
我
有一大堆大约500字
的
短篇小说,
我
想把它们分成20个类别之一:
我
可以手动对它们
进行
分类
,但我想要实现机器学习来猜测最终
的
类别。解决这个问题
的
最好方法是什么?有没有
我
应该
使用
的
机器学习
的
标准方法?
我
认为决策树不能很好地工作,因为它是文本数据……
我
在这个领域完全是个新手。 如有任何帮助,将不胜
浏览 62
提问于2010-04-23
得票数 20
回答已采纳
3
回答
具有不完全
训练
集
的
文档
分类
artificial-intelligence
、
neural-network
、
document-classification
我
有一个文档集合,这些文档都有一个共同
的
属性(例如,出现了法语这个词),其中一些文档被标记为与这个集合无关(例如,出现了法语接吻),但并不能保证所有文档都已被识别。找出其他文档不属于哪个文档
的
最佳方法是什么?
浏览 0
提问于2012-06-28
得票数 0
回答已采纳
1
回答
如何从朴素贝叶斯
分类
器
中正确计算垃圾邮件分数作为固定特征
和
概率
的
组合?
naive-bayes-classifier
我
正在构建一个学习垃圾邮件/火腿电子邮件
分类
器
作为一项任务。它不
应该
是一个很好
的
通用
分类
器
,而是一个可以在一小组标记
的
用户电子邮件上学习
的
分类
器
(大约)。(假设垃圾邮件/火腿
和
个人特性
的
分发仍然大致相同,则对其余
的
信息
进行
分类
。
我
读了多篇关于这个问题
的
论文
浏览 0
提问于2022-12-20
得票数 1
1
回答
在二进制
分类
器
数据集中,真假
的
比例
应该
是多少?
machine-learning
、
deep-learning
、
nlp
、
dataset
、
cnn
我
用CNN来分析新闻文章
的
情绪。它是一个具有输出
的
二进制
分类
:有趣
和
乏味。在
我
的
数据集中,大约有50,000篇无趣
的
文章,只有大约200篇有趣
的
文章。
我
知道这个比率很不平衡。
我
的
问题是,在这种情况下,比例
应该
是多少。
我
想尝试
的
一种方法是将乏味
的
新闻文章
进行
聚类,并从每个集群中抽取一个样本<e
浏览 0
提问于2018-04-21
得票数 2
回答已采纳
4
回答
如何在C++中使用UTF-8,将其他编码转
换为
UTF-8
c++
、
utf-8
、
character-encoding
我
不知道怎么解决这个问题 问题是程序
应该
找到网站文本中
的
所有
单词
。
浏览 3
提问于2013-04-25
得票数 8
回答已采纳
3
回答
如何使用非
单词
标记识别文本中
的
单词
?
algorithm
、
nlp
、
lexical-analysis
我
目前正在解析一堆邮件,希望从邮件中提取
单词
和
其他有趣
的
标记(即使有拼写错误或字符
和
字母
的
组合,如"zebra21“或"customer242")。但是
我
怎么知道"0013lCnUieIquYjSuIA“
和
"anr5Brru2lLngOiEAVk1BTjN”是不相关
的
单词
呢?如何提取
单词
并丢弃编码错误或部分pgp签名或任何我们在邮件
浏览 5
提问于2010-01-03
得票数 7
回答已采纳
3
回答
如何将
句子嵌入到向量中
neural-network
、
artificial-intelligence
、
recurrent-neural-network
、
sentiment-analysis
我
有一个句子,
我
使用word2vec将
单词
嵌入到vector.For示例中,考虑
我
有一个5 words.so
的
句子,
我
得到了5个不同
的
向量(每个
单词
一个),sentence.Which是将整个句子作为单个向量传递给ANN
的
最好方法吗?
浏览 1
提问于2018-03-11
得票数 0
4
回答
为什么NLTK NaiveBayes
分类
器
错误
分类
一条记录?
nlp
、
classification
、
nltk
、
sentiment-analysis
、
naivebayes
这是
我
第一次使用Python中
的
nltk NaiveBayesClassifier构建情感分析机器学习模型。
我
知道这是一个简单
的
模式,但这只是
我
的
第一步,
我
将尝试标记句下一次。
我
当前模型
的
真正问题是:在
训练
数据集中,
我
明确地将
单词
'bad‘标记为负值(正如您从'negative_vocab’变量中看到
的
那样)。然而,当我在“超棒电影”列表中<e
浏览 0
提问于2018-01-19
得票数 1
回答已采纳
9
回答
检测
和
删除噪声文本
noise
、
java
、
text
给出一个
包含
大量数据
的
数据库表,删除噪声文本
的
最佳做法是什么,如:该噪音存储在“名称”字段中。
我
正在使用Java标准结构处理数据。
浏览 5
提问于2010-05-13
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NLP之文本分类:“Tf-Idf、Word2Vec和BERT”三种模型比较
如何使用 Scikit Learn 为机器学习准备文本数据
MIT通过翻译任务,精准捕获在机器学习系统中作用的神经元
手把手教你解决90%的NLP问题
数据分析秘籍在这里:Kaggle 六大比赛最全面解析(上)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券