首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于协同过滤的推荐引擎(实战部分)

那么首先要做的处理就是添加一列预测列,这一列里我们将rating列复制出一列,叫predict_rating,部分rating置零,当作要预测的评分,我们的程序就计算为零的rating,然后对比predict_rating...和rating的差距。...这是又一个拦路虎,自认为比较理想的是每个都有1/3的predict_rating是0,用来做预测,想到下面个plan: 1、excel复制rating,粘贴,重命名为predict_rating,看数据发现相同...import time real_rating = full_data['rating'] # 原rating predict_rating = np.array(full_data['rating']...,如果有就同时把这两个rating分别加入预测列的rating和对照列的rating中,没有就两个都不加入,这样就实现了和“取出电影-用户矩阵中都不为零的两列”同样的效果。

98570

2021年大数据Spark(二十八):SparkSQL案例三电影评分数据分析

读取电影评分数据,从本地文件系统读取         val rawRatingsDS: Dataset[String] = spark.read.textFile("data/input/rating...), 2) AS avg_rating, COUNT(movieId) AS cnt_rating               |FROM               |  view_temp_ratings...200               |ORDER BY               |  avg_rating DESC, cnt_rating DESC               |LIMIT               ..."), 2).as("avg_rating"),                 count($"movieId").as("cnt_rating")             )             ....orderBy($"avg_rating".desc, $"cnt_rating".desc)             // 获取前10             .limit(10)

1.4K20
领券