框架与算法相关

最近更新时间:2019-09-27 09:52:29

平台的机器学习算法是可以分布式运行的吗?

机器学习的组件和算子是基于 spark 开发的,都是分布式运行。

平台是用的 Spark 的 mlib 吗,不是 sklearn?

主要是基于 spark 的 ml 库(ml 是 dataset-based,mllib 是 RDD-based)。
使用 PySpark 或者 TensorFlow 组件,您也可以 import sklearn。

使用平台组件的话,需要上传 numpy 这些吗?

PySpark / Tensorflow 等组件是自带 numpy 的。

平台的中间运算,代码格式是什么,用什么语法?

机器学习是基于 spark 的,同时支持 scala 和 Python(pyspark)。

平台的 Tensorflow 组件是否支持导入 Python 的 pyd 文件?

支持,但是 pyd 文件无法放在压缩包中导入,应该单独放在依赖文件(不能压缩)或者放在 COS 上, 然后在程序依赖中填入 COS 路径即可。

为什么有时 Python 代码很简单,但 Tensorflow 任务却需要运行很长时间?

原因可能是您在“程序依赖”中填了一个 COS 路径, 这个路径下面不止包含 Python 的依赖文件,还包含大量的数据文件。 Tensorflow 组件把这些数据文件当做依赖导入,所以耗时很久。