腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
简化
文本
含义
相同
但不
精确
的
大
数据
集
的
文本
比较
-
文本
数据
去
重
python-3.x
、
machine-learning
、
nlp
、
duplicates
、
cosine-similarity
我有大约180万条记录
的
文本
数据
集
(不同
的
菜单项,如巧克力,蛋糕,可乐等),属于6个不同
的
类别(类别A,B,C,D,E,F)。其中一个类别大约有70万条记录。我想识别那些错误分类
的
项目,并向人员报告,但挑战是项目名称并不总是正确
的
,因为它完全是人工键入
的
文本
。例如:巧克力可能会被更新为热巧克力,甜巧克力,巧克力等。也可以有巧克力蛋糕;) 因此,为了处理这个问题,我尝试了一种简单
的
方法,使用余弦相似度
浏览 18
提问于2020-09-04
得票数 0
5
回答
使用php将txt文件导入到mysql表中
php
、
text
、
import
我有包含
数据
的
文本
文件。
文本
文件中
的
每一行包含12个用空格分隔
的
数据
。我想导入
相同
的
mysql表,每个
数据
去
各自
的
字段。
数据
应该追加到表中。我知道
如何
使用html表单附加
数据
,
但不
知道文件操作。
浏览 3
提问于2014-01-16
得票数 0
1
回答
如何
解决不正确
的
字符串值MySQL错误?
mysql
、
python-3.x
为此,我将使用.dumps()对矩阵进行序列化,并将我
的
字典放到np.arrays中并进行序列化。这就是我想要
的
:sinais_entry = np.array([serie.sinais]).dumps()这是我
的
MySQL表:+--------+----------------+------+-----+---------+-------+ | Field(序列化
的
字典长度超过
浏览 1
提问于2019-07-20
得票数 0
回答已采纳
1
回答
从DBI查询中为perl中
的
文本
字段获取两种不同
的
长度
mysql
、
perl
、
dbi
我在mysql表中将加密
数据
存储为
文本
字段。所有内容最初都是用Windows perl编写
的
,现在仍然可以正常工作。我
的
问题是,我在Linux上运行
相同
的
代码,当我查询表时,perl中
的
文本
结果告诉我它更长(这会导致我
的
解密失败,因为它太长了)。 运行
相同
的
脚本时会发生这种情况,因此我知道没有代码差异。Linux perl是5.12.3Windows perl是5.10.1有问题
的
浏览 3
提问于2013-04-12
得票数 0
回答已采纳
1
回答
理解机器学习,NLP:使用scikit-learn,python和NLTK进行
文本
分类
python
、
machine-learning
、
scikit-learn
我尝试使用本文中给出
的
示例,除了我尝试使用我自己
的
数据
,而不是使用本教程使用
的
20个新闻组
数据
集
之外,我尝试使用我自己
的
数据
,这些
数据
由
文本
文件组成,这些
文本
文件位于/home/pi/ /中,其中train下
的
每个子目录都是一个标签,如/home/pi//FOOTBALL/ /ho
浏览 0
提问于2019-12-27
得票数 2
1
回答
数据
库(mysql)
数据
类型选择:
文本
与二进制
mysql
、
database-design
与BLOB或BINARY
数据
类型相比,选择
文本
数据
类型
的
权衡是什么?我不打算对列进行索引,也不打算在WHERE子句中使用它,它只是
数据
库中
的
数据
,恰好是
文本
数据
。不过,如果我选择
的
数据
类型有性能或存储优势,那就更好了……谢谢!
浏览 0
提问于2010-07-13
得票数 1
回答已采纳
3
回答
测量
数据
质量
的
技术和实践是什么?
algorithm
、
artificial-intelligence
、
data-quality
如果我有一个描述物理“事物”
的
大型
数据
集
,我
如何
去
衡量这些
数据
与它应该表示
的
“事物”有多匹配呢?举个例子,如果我有一个装有12个小部件
的
板条箱,我知道每个小部件
重
1磅,应该有一些
数据
质量“检查”,以确保箱子
重
13磅。除了图像以外,我
浏览 14
提问于2009-05-14
得票数 2
1
回答
如何
将mysql中
的
属性设置为二进制?
mysql
我成功地用BLOB类型创建了新
的
列文件,但现在需要将属性设置为二进制,并遇到问题。我尝试过修改ALTER列表修改属性二进制;ALTER修改文件二进制;没有使用Thanx。
浏览 3
提问于2020-03-29
得票数 0
回答已采纳
1
回答
在搜索屏幕中使用JQGrid
asp.net
、
jqgrid
嗨(对不起,我
的
英语很糟糕)我已经在JQGrid上读了大约4天了。小
的
例子效果很好。但每次加载页面时,该示例都会显示一个单独填充
的
网格。我想有一个搜索屏幕(一个像谷歌
的
文本
框),并在jqGrid中显示答案(在帖子消息)。我见过一些带有
数据
类型
的
代码,而另一些带有jsonReader...but
的
代码则不完整。我完全迷路了。我只想在json post中填充网格,当我尝试
的
时候,我只能在屏幕上得到
文本
形式
的</e
浏览 0
提问于2016-09-28
得票数 0
1
回答
由于与训练
集
生成规则相关
的
特性而导致
的
过度拟合
machine-learning
、
neural-network
、
feature-engineering
、
training
、
overfitting
我
的
模型在坚持测试
集
(我
的
训练
集
的
一部分)上表现很好,
精确
度在99%左右。然而,当我将模型应用于未标注
的
数据
时,它只能将67%
的
观测
数据
分类到任何类别,甚至在考虑这些分类
的
正确性之前!但是,我输入层
的
最大特性之一是嵌入用于生成训练
集
的
相同
文本
。因此,匹配生成训练
集
的
单词也被嵌
浏览 0
提问于2019-12-04
得票数 4
回答已采纳
2
回答
如何
以PHP格式保存客户端输入
的
文本
?
php
我想将一些
文本
保存到我
的
数据
库中,这些
文本
可以由客户端使用PHP和MySQL输入。假设我有一个
文本
区域,我想保存准确
的
布局,客户端是
如何
输入
文本
的
。我所说
的
精确
布局是指: 之后,我想以
相同
的
格式向他们显示它。当然,当我们输出
文本
时,任何HTML标记都会被清除掉。
浏览 4
提问于2014-03-21
得票数 0
回答已采纳
2
回答
验证/测试
集
唯一性问题
classification
、
nlp
、
cross-validation
、
training
、
text-classification
希望这是一个简单
的
问题,但对于
如何
最好地分离训练/验证/测试
集
,我有点不清楚。 我说了100个A类
的
例子,我把
文本
分为A类(我所关心
的
)或B类(可能是世界上
的
任何
文本
)。显然,我有更多
的
B类
的
例子。当我将
数据
拆分为train/validate/测试
集
时,测试
集
(它根本不用于培训/调优)是否必须没有用于培训
的
浏览 0
提问于2021-12-16
得票数 0
回答已采纳
1
回答
用Python检测剽窃
python
、
nlp
、
fuzzy-logic
背景世界上最美丽
的
事物是看不见或摸不到
的
,它们是用心
去
感受
的
。下列引文应得分较高(例如,80 /100以上):因为他们不
精确
,但他们维护秩序。另一
浏览 0
提问于2018-04-05
得票数 4
回答已采纳
4
回答
如何
找到TIBCO Rendezvous消息
的
字节编码?
java
、
character-encoding
、
nio
、
tibco
在我
的
Java应用程序中,我将TIBCO RV消息以字节形式归档到一个文件中。 我正在写一个小
的
实用程序,将播放消息。这样,我就可以从字节创建一个TibrvMsg对象,而不必解析文件并手动构造对象。我遇到
的
问题是,我正在读取一个在Linux机器上创建
的
文件,并试图在Windows机器上运行我
的
应用程序。由于写入文件
的
字符
集
不同,我得到了一个错误。所以现在,我想要做
的
是用一个特定
的
字符
集
(UTF-8)记录每条消息,这样
浏览 8
提问于2009-05-26
得票数 1
回答已采纳
2
回答
Mysql ASCII vs Unicode
mysql
、
unicode
、
utf-8
、
ascii
简单说一句:谢谢!
浏览 7
提问于2009-09-20
得票数 3
回答已采纳
1
回答
python - sklearn潜在Dirichlet分配变换诉Fittransform
python
、
scikit-learn
我正在使用sklearn
的
NMF和LDA子模块来分析未标注
的
文本
。我阅读了文档,
但不
确定这些模块中
的
转换函数(NMF和LDA)是否与R
的
主题模型中
的
后验函数
相同
(请参见)。基本上,我正在寻找一个函数,它将允许我使用训练集
数据
训练
的
模型来预测测试集中
的
主题。我预测了整个
数据
集
上
的
主题。然后将
数据
分解为训练
集
和测试
浏览 3
提问于2016-11-14
得票数 7
回答已采纳
1
回答
如何
比较
Python中
的
两个大
文本
文件?
python
、
machine-learning
、
text
、
nlp
、
text-processing
数据
集
:我有两个不同
的
文本
数据
集
(用于训练和测试
的
大型
文本
文件,每个文件包含30,000句句子)。部分
数据
如下:“富尔顿县
大
陪审团星期五说,对亚特兰
大
最近
的
初选进行
的
调查表明,没有证据‘任何违规行为’发生。” 问题:我
如何
将训练中未见
的
测试
数据
中
的
每个单词替换为Python中
的</em
浏览 2
提问于2019-10-01
得票数 0
1
回答
如何
搜索.txt和检索
数据
java
、
android
、
search
、
delimiter
使用该id,它将搜索
文本
文件,如果找到,它将在单独
的
文本
视图中显示内容。483,Phil,01-19-1992
文本
文件位于res/raw/players.txt 有一个按钮
的
onClick我有点不确定我应该使用什么类型
的
阅读器,以及
如何
搜索它
的
内容。
浏览 0
提问于2014-11-02
得票数 0
1
回答
规则中
的
组合与或
7
、
rules
我有一个字段A(日期)和字段B(时隙)
的
内容类型。该规则需要检查字段A是星期一还是星期三,以及字段B中
的
时间是16:00或17:00或18:00或19:00 (在星期一)还是13:00或14:00或15:00或16:00 (星期三)。我已经设置了我
的
规则,如屏幕截图所示,但遗憾
的
是,不管我使用什么组合或缩进,它都行不通.📷
浏览 0
提问于2016-07-06
得票数 3
回答已采纳
2
回答
IL代码与IL程序
集
:有区别吗?
c#
、
.net
如果我运行一个.NET编译器,它会生成一个包含中间语言代码(IL)
的
文件,并将其放入.exe文件(例如)。IL代码和IL程序
集
之间有区别吗?
浏览 1
提问于2015-11-05
得票数 8
回答已采纳
点击加载更多
相关
资讯
LLM循环助力:创建PARADEHATE数据集实现仇恨言论无毒化
史上最大高质量开源数学预训练数据集MegaMath发布
基于 Spark 的文本情感分析,以《疯狂动物城》为例
突破迁移学习局限!谷歌提出“T5”新NLP模型,多基准测试达SOTA
机器学习必须需要大量数据?小数据集也能有大价值!
热门
标签
更多标签
云服务器
ICP备案
即时通信 IM
实时音视频
对象存储
活动推荐
运营活动
广告
关闭
领券