腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(153)
视频
沙龙
1
回答
如何
从头开始
为
BIOES
/
BILOU
格式
的
自定义
多
类
standfordNLP
/
Stanza
NER
标记
模型
构建
训练
数据
集
?
、
、
、
我正在将NLP用于一个
自定义
应用程序,并且我想用StanfordNLP
训练
自己
的
NER
标记
器
模型
。 默认
模型
仅限于非常通用
的
标签,如LOC、PER、MISC、COUNTRY、TIME等。我
的
自定义
标记
更加具体,例如。食品,体育,软件,品牌。我该
如何
格式
化我从网上或从PDF文件中删除
的
BIOES
/
BILOU</e
浏览 27
提问于2020-04-17
得票数 2
3
回答
有没有可能
训练
斯坦福
NER
系统来识别更多
的
命名实体类型?
、
、
我现在正在使用一些NLP库(stanford和nltk) Stanford我看到了演示部分,但只是想问一下是否可以使用它来识别更多
的
实体类型。因此,目前斯坦福
NER
系统(如演示所示)可以将实体识别为个人(姓名)、组织或位置。但被认可
的
组织仅限于大学或一些大型组织。我想知道我是否可以使用它
的
API
为
更多
的
实体类型编写程序,比如如果我
的
输入是"Apple“或"Square”,它可以将其识别为一家公司。 我必须创建自己
的
训练</e
浏览 1
提问于2014-03-04
得票数 28
回答已采纳
6
回答
在命名实体识别中,
BILOU
标签意味着什么?
、
我注意到,在一些论文中,人们提到了
NER
的
BILOU
编码方案,而不是典型
的
生物标签方案(例如Ratinov和Roth在2009年发表
的
这篇论文)。通过使用2003年
的
CoNLL
数据
,我知道I stands for 'inside' (use it concurrently with the 'last
浏览 7
提问于2013-06-15
得票数 48
回答已采纳
1
回答
如何
为OpenNLP准备
训练
数据
,以对包含多个单词
的
token进行
标记
化?
、
、
、
因此,一些包含多个单词
的
标记
可以被
标记
,而不仅仅是使用空格。phương", "đã", "nhiều", "lần", "báo", "Điện lực", "Bến Tre", "nhưng", "chưa", "được", "giải quyết"]
训练
数据
我将需要粘合在一起
的
浏览 1
提问于2018-07-17
得票数 3
3
回答
基于深度学习
的
自定义
命名实体识别
、
、
、
我有一个有两列
的
数据
集
。第一栏有一些文字(新闻文章),第二栏包含那些新闻文章(第一栏)中人
的
名字(不完全是英文名称)。我尝试过使用Spacy
构建
一个名为实体识别器
的
自定义
程序,但是它不起作用。我能用深度学习
的
方法来识别那些看不见
的
新闻文章中
的
名字吗?(测试
数据
)
浏览 0
提问于2019-08-22
得票数 1
5
回答
使用
自定义
数据
进行NLTK命名实体识别
、
、
、
我正在尝试使用NLTK从我
的
文本中提取命名实体。我发现NLTK
NER
对于我
的
目的来说并不是很准确,我也想添加一些我自己
的
标签。我一直在试图找到一种方法来
训练
我自己
的
NER
,但我似乎找不到合适
的
资源。我有几个关于NLTK
的
问题- 我可以使用自己
的
数据
在NLTK中
训练
命名实体识别器吗?如果我可以使用自己
的
数据
进行
训练
,_是否对要修
浏览 125
提问于2012-07-05
得票数 48
3
回答
关于NLTK中
NER
的
帮助
、
、
我面临
的
问题是,他们在培训NLTK
的
NLTK上没有我
的
自定义
数据
的
帮助。他们使用了MaxEnt,并在ACE语料库上进行了
训练
。我已经在网上搜索了很多,但是我找不到任何可以用来
训练
NLTK的人
的
方法。如果有人可以为我提供任何链接/文章/博客等,这可以指导我培训用于培训NLTK
的
NER
的
数据
集
格式
,这样我就可以准
浏览 0
提问于2015-01-29
得票数 12
1
回答
对经过
训练
的
twitter评论进行预分类以进行分类
、
、
、
、
所以我有大约一百万行csv
格式
的
twitter评论
数据
。我需要将它们归入特定
的
类别,比如如果有人在谈论:“产品寿命”,“便宜/昂贵”,“特价/折扣”等。如您所见,我有多个
类
来对这些tweet
数据
进行分类。问题是,我
如何
为如此庞大
的
data.Silly问题生成/创建
训练
数据
,但我想知道是否已经有预先分类/
标记
的
评论
数据
来<em
浏览 0
提问于2014-10-06
得票数 1
3
回答
OpenNLP托卡器没有检测到属于一起
的
单词吗?
、
、
、
根据我
的
理解,tokenization意味着将文本分割成单词和句子。单词通常被空格隔开,但并不是所有的空白都是相等
的
。例如,洛杉矶在一个人
的
思想上,不顾空白处。但是,每当我运行OpenNLP Tokenizer时,它都会为洛杉矶创建两个不同
的
令牌: Los & Angeles。这是我
的
代码(我从旧
的
OpenNLP站点获得了en-token.bin
模型
)。这是输出:cityLosisofmost beaut
浏览 3
提问于2018-07-11
得票数 3
1
回答
我们可以
训练
tensorflow.js来获取图像
的
某些部分吗?
、
、
、
、
我
的
客户要求用户使用该图像上传图像--首先,我使用了tesseract.js节点模块,但是它没有工作,所以我转到tensorflow.js来创建自己
的
模型
,并对图像
的
某些部分进行
训练
。因此,利用tensorflow
的
目标检测方法,可以检测出图像
的
特征,得到x和y坐标。如果我使用下面的代码获得坐标,我可以裁剪图像
的
某些部分。
浏览 11
提问于2020-02-25
得票数 0
5
回答
用自己
的
数据
集
训练
Yolo
、
、
、
我想用Yolo建立一个
数据
库,这是我第一次与深度学习一起工作。 对于刚开始深造的人来说,这是不是太难了?
浏览 12
提问于2019-10-28
得票数 3
4
回答
NER
语料库
的
标注
训练
数据
、
、
、
、
在opennlp
的
文档中提到,为了获得良好
的
性能,我们必须用15000行来
训练
我们
的
模型
。现在,我必须从文档中提取不同
的
实体,这意味着我必须
为
训练
数据
(15000行)中
的
许多
标记
添加不同
的
标记
,这将花费大量时间。还有别的办法吗?这将减少时间或任何其他方法,我可以继续。 谢谢。
浏览 6
提问于2016-05-23
得票数 4
回答已采纳
2
回答
Stanford
自定义
分类软件编程关键字
、
、
、
我是NLP
的
新手,我使用斯坦福
NER
工具对一些随机文本进行分类,以提取软件编程中使用
的
特殊关键字。Java "Programming_Language"Linux "Operating_system" 请您帮助我
如何
定制StanfordNER分类器以满足我
的
需要?
浏览 2
提问于2014-04-09
得票数 1
回答已采纳
1
回答
通过imagenet
数据
库和我
的
自定义
标签使用resnet50
模型
的
Image_classification
、
、
、
我正在研究image_classification问题(
多
类
)。但是现在,我有了自己
的
数据
集
的
图像
数据
和标签
数据
。 当我将图像传递给resnet50
模型
时,它会返回已经
训练
好
的
imagenet标签。但是,
如何
将输出更改为我自己
的
标签,而不是imagenet预
训练
的
标签。,并在我
的
数据
集中将其<
浏览 23
提问于2019-09-04
得票数 1
4
回答
带中文
的
Word2Vec
、
、
、
我一直在学习Word2Vec(Deeplearning4j),但我找不到任何支持中文
的
东西。我从各种渠道了解到,通过使用一些插件,它也可以在中文上工作。所以请告诉我任何中文插件,以及它应该
如何
在word2vec中实现。 以及Deeplearning4j Word2Vec是否适合英文和中文(两者)
的
支持。如果没有,请建议一些更好
的
选择与它
的
链接。
浏览 2
提问于2016-05-23
得票数 2
1
回答
Doc2vec超越初学者指导
、
、
、
到目前为止,我一直以最基本
的
方式使用doc2vec,但效果有限。我可以找到类似的文件,但我经常得到很多假阳性。我
的
主要目标是
为
用户需求
构建
一个分类算法。这是为了帮助用户进行需求分析和搜索。我知道这不是一个足够大
的
数据
集
,所以有几个问题我想要帮助:
如何
调整
模型
,特别是
为
向量空间选择合适
的
维数。
如
浏览 0
提问于2019-03-25
得票数 3
1
回答
不平衡标签-混淆矩阵中更好
的
结果
我有不平衡
的
标签。也就是说,在二进制分类器中,我有更多
的
正面(1)
数据
和更少
的
负面(0)
数据
。我正在使用分层K折叠交叉验证,并得到真正
的
负片
为
零。你能告诉我有什么方法可以让真负片得到更大
的
tan0吗?
浏览 0
提问于2016-08-23
得票数 0
3
回答
非结构化文本分类
、
、
、
我将对非结构化文本文档进行分类,即结构未知
的
网站。我所分类
的
班级数量是有限
的
(在这一点上,我相信只有三个)。有人建议我该怎么开始吗?我对Mahout和Hadoop有点熟悉,所以我更喜欢基于Java
的
解决方案。
浏览 0
提问于2014-09-05
得票数 13
1
回答
将DateTimeOffset存储在SQLite.Net中
、
、
、
我
的
几个
数据
模型
(也称为表)包含DateTimeOffset类型
的
属性。其目的是在不丢失偏移信息
的
情况下存储这些信息。我知道在创建storeDateTimeAsTicks时可以设置
的
SQLiteConnection参数,将其设置
为
false将强制所有DateTime属性以ISO
格式
存储
为
文本--但是,这不会对DateTimeOffset,并将它们存储在两个单独
的
列中, =>但是对于这两种方法,我需要向<
浏览 1
提问于2017-02-01
得票数 10
回答已采纳
1
回答
LIBSVM
数据
准备: Excel
数据
到LIBSVM
格式
我想研究
如何
执行LIBSVM进行回归,目前我正忙于准备我
的
数据
。目前,我有这种形式
的
.csv和.xlsx
格式
的
数据
,我想把它转换成libsvm
数据
格式
。 根据我所读到
的
,对于回归,“标签”是目标值,可以是任何实数。 我在做电力负荷预测研究。有人能告诉我这是什么吗?最后,我应该
如何</e
浏览 3
提问于2016-11-05
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Manning大神牵头,斯坦福开源Python版NLP库Stanza:涵盖66种语言
基于BERT预训练模型的命名体识别任务
Pytorch用BERT对CoLA、新闻组文本数据集自然语言处理NLP:主题分类建模微调可视化分析
滴滴语音交互自然语言理解探索与实践
使用Tensorflow对象检测在安卓手机上“寻找”皮卡丘
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券