腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
将
多
类
分类
结果
提取
为
不同
的
列
pyspark
、
apache-spark-sql
、
apache-spark-mllib
、
apache-spark-ml
我正在使用RandomForestClassifier对象来解决
多
类
分类
问题。预测
的
输出数据帧
将
'probability‘列表示
为
向量: df.select('probability').printSchema() |-- probability: vector (nullable= true) 每一行都是4
的
向量: df.select('probability').show(3) +------------
浏览 15
提问于2019-10-10
得票数 1
回答已采纳
1
回答
文本
分类
:
多
文本
分类
与
多
类
文本
分类
machine-learning
、
text-classification
、
multilabel-classification
在文献综述
的
基础上,我发现最常用
的
方法之一是问题转换方法.它将
多
标号问题转化为多个单标号问题,
分类
结果
只是每个单标签
分类
器
的
简单结合,采用二进制相关
的
方法。由于单个标签问题可以被描述
为
二进制
分类
(如果有两个标签)或
多
类
分类
问题(如果有多个标签,即labels>2),目前
的
转换方法似乎都将
多
标签问题转化为多个二进制问题。在这
浏览 5
提问于2016-03-02
得票数 1
1
回答
PySpark
:
将
PythonRDD附加/合并到
PySpark
数据帧
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-spark-mllib
我正在使用以下代码创建一个聚
类
模型,然后
将
每个记录
分类
到某个聚
类
:from
pyspark
.mllib.linalgKMeans.train(rdd, 2, maxIterations=10, initializationMode="random") 如何
将
预测
结果
作为附加
列<
浏览 6
提问于2016-09-17
得票数 2
回答已采纳
1
回答
NLTK -
多
标记
分类
python
、
nlp
、
nltk
、
document-classification
我使用NLTK对文档进行
分类
--每个文档有一个标签,其中有10种类型
的
文档。对于文本
提取
,我清洗文本(标点符号删除,html标记删除,低胁迫),删除nltk.corpus.stopwords,以及我自己
的
停止词集合。对于我
的
文档特性,我
将
查看所有50k文档,并按频率( frequency_words )收集前2k单词,然后对每个文档标识文档中也在全局frequency_words中
的
单词。然后,我
将
每个文档作为{word: boolean}
的<
浏览 1
提问于2014-05-09
得票数 7
回答已采纳
5
回答
如何使用java从pdf文件中获取原始文本
java
、
pdf
、
pdfbox
超链接 提出了一种从纯文本中
提取
多
词概念词
的
本体学习方法OntoGain在简单术语抽取
的
基础上,通过对抽取
的
概念进行聚
类
,形成了一个概念层次结构。导出
的
术语
分类
学然后丰富了非
分类
学关系。为了实现每一层,我们已经检查了几种
不同
的</em
浏览 4
提问于2013-08-07
得票数 40
1
回答
Scala - MaxBins错误-决策树-范畴变量
scala
、
apache-spark
、
machine-learning
、
decision-tree
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个
分类
特性中
的
值数目一样大,但是
分类
功能0有31个值。考虑删除具有大量值
的
此功能和其他
分类
功能,或添加更多
的
培训示例。DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesI
浏览 1
提问于2017-11-20
得票数 0
1
回答
从密集向量
列
中获取新
列
中每一行
的
最大预测值
python
、
apache-spark
、
pyspark
、
databricks
我有一个
pyspark
,我已经
将
随机
分类
器模型(来自
pyspark
.ml.classification导入RandomForestClassifier)应用于
多
类
数据。现在,我有预测和概率
列
(密集向量
列
)。我希望在一个新
列
中
的
最大概率从可用
的
概率
列
,它对应于预测。你能告诉我一条路吗?
浏览 0
提问于2021-10-04
得票数 2
回答已采纳
2
回答
如何在weka SMO
分类
器中实现
多
类
分类
?
machine-learning
、
weka
、
smo
我正在使用weka进行
分类
。在weka中,我使用SMO对documents.In
的
某些情况进行
分类
,SMO返回错误
的
类别。例如,拿我
为
这两个category.Then训练和创建
的
两个类别的计算机和Cricket.First
为
例,我
将
测试一个文档,其内容与这两个类别的内容以50:50
的
比例相关。SMO仅返回第一
类
计算机。如果50:50
的
比例意味着我需要返回这两个类别。 如何在SMO
分类</em
浏览 2
提问于2012-08-24
得票数 0
回答已采纳
1
回答
Excel中是否有与嵌套IF(ISNUMBER(搜索)函数)相同
的
可伸缩函数?
excel
、
string
、
if-statement
、
excel-formula
、
vlookup
我正试图找到一种更好
的
方法,在类别
列
的
每个单元格中搜索特定
的
字符串,然后根据这些类别中找到字符串
的
位置
将
这些类别
分类
。如果这是只查找一个字符串
的
浏览 11
提问于2020-01-02
得票数 0
回答已采纳
1
回答
多
标签文本
分类
与科学学习,哪些
分类
器使用?
python
、
scikit-learn
、
classification
、
text-classification
我已经使用scikit-learn库进行了文本
分类
,导入了以下
分类
器:from sklearn.svmfrom sklearn.neighbors import NearestCentroid输入文本
的
形式如下但我想知道
的
是,如果我有多个标签
的
文本,比如: ('some text 1'
浏览 0
提问于2018-02-16
得票数 2
回答已采纳
1
回答
可以在
pySpark
中修改输出数据文件名吗?
python
、
apache-spark
、
pyspark
简化
的
案例。-01.txt,data_2020-01-03.txt,data_2020-01-05.txt.预期预期
结果
: .
浏览 3
提问于2020-11-17
得票数 0
1
回答
识别数据集中
的
特征类型:
分类
或词袋
python
、
pandas
、
machine-learning
我试图识别数据集中
的
特征类型,它可以是
分类
/包字/浮动。
分类
数据可以是对象数据,也可以是浮动数据。计算一个特征中
的
唯一值并不能确保精确
的
解决方案,因为
不同
的
样本可能具有相同
的
特征值,而这些特征值不一定是绝对
的
。对于书包或单词,我想数单词
的
数量,但这是不正确
的
方式,因为文
浏览 0
提问于2018-05-14
得票数 1
1
回答
如何使用二进制
分类
器进行积极
的
无标记学习?
python
、
machine-learning
、
pyspark
、
supervised-learning
、
semisupervised-learning
我建立了一个装袋
分类
器,其中二进制
分类
器对阳性样本和相同数量
的
随机抽样未标记样本进行训练(给定1分
为
阳性,0分
为
未标记)。我
的
问题是,使用
PySpark
的
输出模型预测是一个概率
列
,它是每个
类
的
概率向量。因此,例如,二进制
分类
的
输出如下:+-----+--------------------+ |
浏览 4
提问于2021-05-31
得票数 0
2
回答
是否可以在
PySpark
中使用带有OneVsRest
的
LinearSVC模型?
machine-learning
、
pyspark
我正在尝试在
PySpark
的
OneVsRest中使用LinearSVC模型,但似乎还不支持。我
的
错误消息 LinearSVC only supports binary classification. 1 classes detected in LinearSVC_43a50b0b70d60a8cbdb1__labelCol 为了在
PySpark
中实现它,我需要做哪些更改?有人知道
Pyspark
中
的
OneVsRest什么时候会支持LinearSVC吗?
浏览 53
提问于2019-10-10
得票数 0
4
回答
logistic回归与softmax回归
的
差异
algorithm
、
machine-learning
、
classification
、
logistic-regression
、
softmax
我知道logistic回归适用于二元
分类
,而softmax回归则适用于
多
类
问题.如果我用相同
的
数据训练多个logistic回归模型,并将它们
的
结果
归一化,得到
多
类
分类
器而不是使用一个softmax模型,会有什么
不同
吗?我想
结果
是一样
的
。我可以说:“所有的
多
类
分类
器都是二进制
分类
器
的
级联
浏览 3
提问于2016-03-17
得票数 24
回答已采纳
1
回答
用Scikit学习和概率代替简单标签
的
多
标签
分类
machine-learning
、
scikit-learn
、
classification
、
multilabel-classification
我想对一组3d图像(MRI)进行
分类
。有4个等级(即疾病等级A,B,C,D),这4个等级之间
的
区别并不小,因此我对训练数据
的
标签不是每幅图像一个类别。这是一组4种概率,每班一个。基本上意味着 等等,我相信你知道这个主意。我不明白如何
将
模型与这些标签相匹配,因为scikit-learn
浏览 2
提问于2017-10-29
得票数 3
1
回答
火花放电
的
UDF能返回与
列
不同
的
对象吗?
python
、
dataframe
、
pyspark
、
user-defined-functions
我想将一些函数应用到pysaprk dataframe
的
列
中,这是一个用UDF实现这一点
的
管理方法,但是我希望返回是另一个对象,而不是dataframe
的
一个
列
、一个熊猫数据框、一个python列表等等我使用
分类
器
将
每一
列
划分为
类
,但我希望
结果
是
类
的
摘要,而不是修改,我不知道这是否适用于UDF。我
的
代码是这样
的
import numpy as n
浏览 0
提问于2018-12-18
得票数 1
回答已采纳
1
回答
只匹配训练样本
的
分类
算法
machine-learning
、
classification
、
machine-learning-model
、
multiclass-classification
我有10个
分类
特征和一个
多
类目标。我应该选择符合以下标准
的
分类
算法:预测输出应是与预测输入完全匹配
的
目标,按训练数
浏览 0
提问于2021-03-20
得票数 1
3
回答
OneVsRestClassifier和MultiOutputClassifier在scikit学习中有什么区别?
python
、
scikit-learn
、
classification
、
multilabel-classification
、
multiclass-classification
请有人解释一下(例如,也许)什么是科学知识中
的
,和之间
的
区别?我读过文档,我理解我们使用: OneVsRestClassifier -当我们想要进行
多
类
或
多
标签
分类
时,它
的
策略包括拟合每类一个
分类
器。对于每个
分类
器,
类
与所有其他
类
相匹配。(这很清楚,这意味着
多
类
/
多
标签
分类
问题被分解
为
多个二进制<
浏览 3
提问于2017-03-15
得票数 36
回答已采纳
2
回答
预测
类
或
类
概率?
python
、
machine-learning
、
classification
、
random-forest
、
h2o
我目前正在使用H2O进行
分类
问题数据集。我正在一个python3.6环境中用H2ORandomForestEstimator测试它。我注意到预测方法
的
结果
是给出0到1之间
的
值(我假设这是概率)。在我
的
数据集中,目标属性是数字属性,即True值
为
1,False值
为
0。我确保
将
类型转换为目标属性
的
类别,仍然得到相同
的
结果
。然后,我对代码进行了修改,
将
目标
列
转换为因子,
浏览 5
提问于2018-07-16
得票数 12
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
使用scikit-learn解决文本多分类问题
一文读懂PySpark数据框
一文读懂 PySpark 数据框
数据挖掘案例——ReliefF和K-means算法的医学应用
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券