腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
数据
集中
的
电影
类型
进行
编码
python
、
encoding
、
multilabel-classification
我有一个
电影
数据
集,其中包含一个列,其中列出了
电影
的
类型
: title genres t1
浏览 14
提问于2021-09-22
得票数 0
回答已采纳
1
回答
Pandas按列中
的
每个值分组
pandas
、
group-by
我
的
数据
集如下所示: ? 在预期输出中,我们按性别分组,并希望计算每个性别在特定
电影
类型
中给出了多少次评级(即使一部
电影
有更多
的
电影
类型
)。代码到目前为止,但没有给出正确
的
输出: df.groupby(['genre','gender']).agg({"rating":"count"}) 它不会给出正确
的
输出,因为它只对完全相同<e
浏览 11
提问于2020-09-29
得票数 2
回答已采纳
1
回答
一个特性
的
多个分类值--如何使用python将其转换为二进制
machine-learning
、
python
、
scikit-learn
我有一个
数据
集
的
电影
,其中有28列。其中之一是体裁。对于此
数据
集中
的
每一行,列
类型
的
值都是“Action可比动画+喜剧家庭幻想”形式。我想使用pandas.get_dummies()
对
它们
进行
编码
,但是由于列有多个值,那么如何处理这些条件呢?关于以下链接
的
附加信息(从堆栈溢出中移出
的
问题) https://stackoverflow.com
浏览 0
提问于2016-10-31
得票数 11
1
回答
使用get_dummies(),但在数组上不起作用
python
、
arrays
、
pandas
、
encoding
我尝试使用Pandas get_dummies对
数据
集中
的
列
进行
编码
,但它返回0,因为它没有过滤列中数组中
的
每个关键字。pd.get_dummies(metadata, 它应该为正确
的
电影
类型
添加1,为不匹配
的
电影
添加0。
浏览 0
提问于2019-05-07
得票数 1
1
回答
如何
对
长度可变
的
分类
数据
进行
编码
,以便在nn.Embedding中以PyTorch格式获取
machine-learning
、
pytorch
、
data-mining
、
encode
、
word-embedding
假设对于每个示例movie_genre,我有一个名为movie
的
数据
字段,它是从以下
类型
中选择
的
:AdventureComedy也就是说,
电影
的
类型
是一个可变
的
列表。如果我使用一个热向量
对
genre
进行
编码
,可以将Action
编码
为(1,0,0,0),Adventure可以
编码
为( 0,1,0,0),
浏览 0
提问于2019-07-10
得票数 2
1
回答
用Python抓取Twitter上
的
电影
列表
python
、
twitter
、
scrape
我正在使用crowdflower
电影
数据
集,并希望在twitter上抓取与该
数据
集中
的
每部
电影
相关
的
tweet。我已经导入了
数据
集。最好知道如何对流和非流tweet
进行
编码
。 提前谢谢。
浏览 0
提问于2017-03-07
得票数 0
1
回答
基于
电影
数据
集
的
KMeans聚类
python
、
k-means
、
data-science
、
scikit-image
我正在处理Movielens
数据
集,我想
对
其应用K-Means算法。我想知道为此应该选择哪些列,以及如何进一步处理,或者是否应该直接使用KNN算法。
浏览 16
提问于2018-08-16
得票数 1
1
回答
我想知道混淆矩阵
的
步骤
python
、
jupyter-notebook
、
dataset
、
data-science
、
recommendation-engine
但是我不知道该怎么做,,我真的很感激你
的
回答,尽管它们只是步骤,代码计数向量器 c_vectorized
浏览 0
提问于2021-05-23
得票数 0
回答已采纳
1
回答
计算二进制pandas
数据
帧
的
相似性度量
python
、
pandas
、
data-mining
、
hamming-distance
、
recommender-systems
我需要在python中
编码
一个相似性分数,以便根据
电影
类型
找到匹配
的
内容。 该比较是为了让1个用户找到他们
的
二进制
类型
评分与40,000个
电影
标题
的
二进制
类型
评分
数据
帧之间
的
相似性。我需要遍历
数据
帧,并将每个项目与用户得分
进行
比较,以找到相似度。以用户1为例: 0,1,0,0,0,0,1,0,0,0,1,1,0,0,0,1 比较与
电影
数据
浏览 39
提问于2020-10-23
得票数 0
1
回答
XGboost分类器预测相同样本
的
不同结果取决于测试
数据
集
的
大小
machine-learning
、
python
、
xgboost
、
predict
我用以下几行来训练一个简单
的
xgboost分类器模型。X_train, y_train)ypred_2 = xgb_model.predict(X_test_2) 然后我使用两个测试
数据
集,其中X_test_2是X_test_1
的
一个子集,在预测这两个测试
数据
集时,模型
对
一些样本(在两个
数据
集中
是相同
的
)给出了不同
的
预测。即使我分批
进行
预测
浏览 0
提问于2022-06-13
得票数 1
1
回答
如何创建具有多个值
的
功能
的
海上小提琴图?
python
、
pandas
、
plot
、
seaborn
、
violin-plot
我试图通过创建一个小提琴曲来分析和可视化
电影
数据
集。这里相关
的
功能是
电影
及其
类型
的
评级。我
的
问题是,大多数
电影
都有不止一种
类型
(我还没有
对
它们
进行
编码
)。让我们以下面的
数据
为例: genres = [['action', 'drama', 'comedy'], ['comedy', &
浏览 4
提问于2022-04-17
得票数 1
回答已采纳
1
回答
在计算NDCG时如何估计缺失值
recommender-system
、
model-evaluations
、
ndcg
、
movielens
我想比较一下在MovieLens
数据
集上使用NDCG度量
的
推荐方法。让我们考虑一下由5部
电影
组成
的
dataset上
的
示例。用户A级别仅为3部
浏览 0
提问于2020-11-14
得票数 0
2
回答
如何处理在dataset中
对
多列应用一个热
编码
后产生
的
大量恐惧?
machine-learning
、
linear-regression
、
prediction
、
feature-selection
、
one-hot-encoding
我正在使用来自kaggle
的
TMDB 5000
电影
数据
集: https://www.kaggle.com/tmdb/tmdb-movie-metadata 在预处理阶段,我使用MultiLabelBinarizer()对
数据
集中
的
列
进行
编码
,如下所示: - Genres, production_countries, production_companies, Cast 现在,我有了大量
的
特性。
浏览 18
提问于2019-12-09
得票数 0
2
回答
当有关类别的
数据
非常丰富时,为什么要使用嵌入式?
neural-network
、
embeddings
假设我正在制作一个
电影
推荐引擎,我有大量关于
电影
类型
、评级、发布信息、收益等方面的
数据
。为用户创建一个嵌入层是有意义
的
,因为我没有关于他们
的
其他信息,而且嵌入将根据他们
的
手表偏好来了解用户
的
几何形状。我
的
直觉仍然告诉我为
电影
索引做一个嵌入层,并将它与
电影
相关
的
数字特征连接起来。但是为什么呢? 我们就不能把
电影
的
数字特征传递给模型来区分吗?嵌入是否
浏览 0
提问于2021-03-04
得票数 1
1
回答
推荐引擎度量
recommendation-engine
、
collaborative-filtering
我在Insight
数据
科学博客上使用了一个非常好
的
例子实现了我
的
推荐系统:我一直在训练我
的
模型,而训练
的
MSE拒绝下来
浏览 2
提问于2016-04-06
得票数 1
回答已采纳
1
回答
如何根据
电影
的
元
数据
对
电影
进行
多标签分类,其中元
数据
主要是单个
的
单词?
python
、
machine-learning
、
vectorization
、
text-classification
、
multilabel-classification
我制作了一套过去几年制作
的
各种
电影
的
数据
集,技术人员为
电影
、
电影
体裁、它所代表
的
国家、运行时、语言、
电影
所赢得
的
各自
的
电影
节等工作。我认为我们需要用数字/向
浏览 1
提问于2020-04-03
得票数 0
回答已采纳
1
回答
如何修复R中
的
“未定义列所选”错误?
r
、
subset
我正在研究一个
电影
推荐系统(学校项目)。在这个项目中,人们
对
电影
进行
了评级。当有人没有看
电影
时,
数据
集中
就会显示NAs。因此,我正在寻找一种方法来摆脱那些没有人看过
的
电影
。这是每个人都有安娜
的
台词。问题是,并不是所有的列都用于
对
电影
进行
评级。就像有标题
的
专栏。我如何
对
包含评级(4:17)
的
列
进行</em
浏览 0
提问于2019-05-19
得票数 0
回答已采纳
1
回答
模型:在培训和部署期间
predictive-modeling
、
model-selection
然而,我实际上在部署过程中发现,如果在整个
数据
集(train+test)上使用新
的
模型序列,实际上在预测真正
的
“未见”
数据
方面也会产生相当好
的
结果。我正在寻找
对
这种方法
的
评论。有什么问题吗?特别是,在这种方法中,我将对整个
数据
集应用任何
类型
的
转换,例如标准化/规范化/分类
编码
。
对
部署来说不是更好吗?(与传统方法相比,所有这些转换只在火车
集中
<e
浏览 0
提问于2022-04-06
得票数 0
回答已采纳
1
回答
分析抽象
数据
scala
、
apache-spark
、
machine-learning
、
bigdata
我需要处理大量
的
csv文件,其中包含3列:日期,电视频道id,
电影
id。我发现
的
解决方案是定义一些小时,并把
电影
范围内
浏览 5
提问于2016-07-28
得票数 0
1
回答
如何
对
包含pandas
的
数据
透视表
进行
排序
python
、
pandas
、
pivot-table
、
sklearn-pandas
这是一个表,其中包含
电影
名称、用户id和用户
对
电影
的
评分。仅对用户观看
的
电影
进行
评级In[1]: ratings_matrix = combine_movies_ratings.pivot_table(index='userID[5, 0, ...., 0]我希望得到
浏览 0
提问于2018-02-19
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用自编码神经网络,检测未标记数据集中的异常值
Python数据分析中如何对符合条件的数据进行标注
如何对单元格中的数据进行强制换行
关于对旅游饭店进行大数据统计的通知
如何对单元格中的数据进行强制换行
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券