R在Sparklyr中从ALS实现中提取潜在因素

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

使用sparklyr文档中的ALS示例：sc <- spark_connect(master = "local") rating = c(3, 1, 2, 4, 5, 4)movies_tbl <- sdf_copy_to(sc, movies) model <- ml_als(movies_tbl, rating ~ user + it

浏览 10提问于2019-11-20得票数 1

回答已采纳

1回答

将Spark ML中的肌萎缩侧索硬化症潜在因素保存到S3耗时过长

、、、

我正在使用Python脚本来计算用户和项目的潜在因素，使用Spark ML的ALS例程，如所述。在计算潜在因子之后，我尝试使用以下内容将这些因子保存到S3：model.itemFactors.rdd.saveAsTextFileLFA的计算速度很快(~15分钟)，但将潜在因素写到S3中几乎需要5个小时。因此，很明显，有些事情是

浏览 2提问于2017-01-06得票数 1

1回答

中ALS机器学习算法中的秩是什么？

、、、

我想尝试一个ALS机器学习算法的例子。而且我的代码工作得很好，但是我不理解算法中使用的参数rank。我在java中有以下代码 int rank = 10; MatrixFactorizationModel model = ALS.train(JavaRDD.toRDD(ratings), rank, numItera

浏览 2提问于2015-06-09得票数 16

回答已采纳

1回答

Sparklyr Spark 2.1生成顶级推荐

、、、、

R版本3.3.0 (2016-05-03) Sparklyr版本“0.7.0”Spark 2.1在纱线客户端model_als<-ml_als_factorization(x, rating.column = "quantity",

浏览 0提问于2018-04-10得票数 0

1回答

numIteraions和lambda在ALS.train()中的秩是什么？

、、、

我正在尝试使用协同过滤使用ALS算法。在该算法中，我需要说明用于训练算法的秩、numIterations和lambda参数。我需要知道如何为最小和最大的数据集调整这个算法，以产生更好的预测。

浏览 3提问于2017-08-23得票数 1

回答已采纳

1回答

Sparklyr未连接到数据库

、、、、

我正在尝试使用sparklyr或SparkR连接到数据库。install.packages("sparklyr") Failed to

浏览 0提问于2018-11-27得票数 1

1回答

在R中运行spark包不起作用，如何在R中调用spark包？

、、

我正在尝试通过sparklyr在R中实现fp-growth算法。警告消息说它不适用于我的R版本，但我相信这是最新的R版本。除此之外，我还可以如何安装ml_fpgrowth包？

浏览 3提问于2019-04-05得票数 0

1回答

如何将SparkR转换为sparklyr？

、、、

如何将SparkR中的SparkDataFrame转换为sparklyr中的tbl_spark有什么建议可以解决这个问题吗？谢谢!

浏览 6提问于2020-11-06得票数 2

1回答

火花ALS算法给出了太多的零因子

、、、

我们在spark 2.2.1中使用ALS来计算用户嵌入和项嵌入。我们的实验样本包含120亿个实例，点击的实例被标记为正实例，反之则为阴性。在对嵌入进行检查后，我们发现，即使用户单击了一些异常项，ALS也可能给出零的因素。 .groupByKey().zipWithIndex() .persist(StorageLevel.MEMORY_AND_DIS

浏览 2提问于2019-08-27得票数 0

回答已采纳

1回答

Sparklyr中split-apply-combine策略错误处理

、、

我有一个名为"userid“的Spark DataFrame，我正在使用sparklyr对其进行操作。每个userid可以有从一行数据到几百行数据的任何地方。group_by(userid) %>% ungroup() 我想把这个函数包装在一个错误处理程序中，比如purrr::possibly，这样如果一个错误出现在一个组中，计算就不会中断。具体地说，replyr::gapply“通过grouping列中

浏览 8提问于2019-06-04得票数 0

回答已采纳

2回答

在Hadoop中使用spark_apply从sparklyr运行系统命令

、、、、

我想对存储在Hadoop集群中的数据运行Java工具。我正在尝试使用sparklyr中的spark_apply函数来实现，但我对语法感到有点困惑。/r_env.zip/r_env/lib/R"c

浏览 0提问于2018-10-18得票数 1

1回答

如何使用木星笔记本中conda环境中的特定Java版本

、、、、

我的总体目标是使用sparklyr在一个R木星笔记本在我的天云服务木星实验室。我创建了一个新的conda环境，其中包含了R、sparklyr和Java 8(因为这个版本是sparklyr支持的版本)，如下所示：sou

浏览 2提问于2019-11-15得票数 2

回答已采纳

1回答

Sparklyr -在spark-submit中更改日志级别

、、

我试图实现的是在${SPARK_HOME}/bin/spark-submit执行期间将记录到控制台的所有信息静默。我已经通过更改${SPARK_HOME}/conf/log4j.properties中的适当行更改了spark本身的日志级别，但当我提交R-sparklyr脚本和sparklyr.jar以作为一种独立作业执行时，我仍然会获得以下信息： # 用户@主机${SPARK_HOME}/bin/spark-submit --c

浏览 27提问于2021-07-02得票数 0

1回答

火花表的等效"str()“(描述dataframe)

、、

我的问题归结为: Sparklyr相当于str R命令的什么？如何描述这张桌子？事先道歉，这是一个非常基本的问题，但我确实搜索了它，并检查了Rstudio的Sparklyr Cheatsheet，但没有找到答案。

浏览 0提问于2019-08-02得票数 0

回答已采纳

2回答

创建具有可变函数的新列

、、

如果这种问题不能用火花解决的话，我很惊讶：# in this format: YYYY-MM-DD (year, month, day) ... ...我收到这个错误： Error: org.apache.spark

浏览 4提问于2016-10-27得票数 3

回答已采纳

1回答

用起泡启动数据库上的H2O上下文

、、、、

问题 Spark 3.0.2不

浏览 0提问于2021-04-21得票数 0

回答已采纳

1回答

与Kerberos的连接

、、、

但是，如果启用了Kerberos安全性，则连接将失败：sc <- spark_connect("http://host:8998", method = "livy"Try spark_connect with config = livy_config()我做错了什么？这种连接需要哪些额外的设置？注: RStudio服务器(we

浏览 1提问于2017-06-23得票数 5

1回答

在Oracle数据库连接中使用sparklyr

、、、、

我想得到一些关于合并以下R包的方法的解释：-sparklyr：用于计算独立星团上的数据-on我的客户端计算机，我使用dbConnect()函数从ODBC R包连接到一个现有的ODBC数据库。此Oracle数据库托管在windows服务器上。我使用位于同一个本地网络但与windows服务器隔离的一些计算机分别实现了一个Spark独立集群:通过使用这个Spark集群，我希望使用sparklyr包的s

浏览 4提问于2018-03-11得票数 1

回答已采纳

1回答

如何在spark mllib中进行基于项目的推荐？

、、、

在Mahout中，支持使用API方法进行基于项目的推荐：但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供： MatrixFactorizationModel.recommendProducts

浏览 1提问于2014-12-18得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云