问如何通过Conda Python在本地机器上安装和使用mmlspark？
EN

Stack Overflow用户

提问于 2018-07-11 03:27:47

回答 2查看 2.6K关注 0票数 -2

如何在装有英特尔Python 3.6的本地计算机上安装与使用MMLSpark？

import numpy as np
import pandas as pd
import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
            .config("spark.jars.packages", "Azure:mmlspark:0.13") \
            .getOrCreate()

import mmlspark
from mmlspark import TrainClassifier
from pyspark.ml.classification import LogisticRegression
from mmlspark import ComputeModelStatistics, TrainedClassifierModel


dataFilePath = "AdultCensusIncome.csv"
import os, urllib
if not os.path.isfile(dataFilePath):
    urllib.request.urlretrieve("https://mmlspark.azureedge.net/datasets/" + dataFilePath, dataFilePath)
data = spark.createDataFrame(pd.read_csv(dataFilePath, dtype={" hours-per-week": np.float64}))
data = data.select([" education", " marital-status", " hours-per-week", " income"])
train, test = data.randomSplit([0.75, 0.25], seed=123)
train.limit(10).toPandas()

model = TrainClassifier(model=LogisticRegression(), labelCol=" income", numFeatures=256).fit(train)
prediction = model.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

MMLSpark不工作。有人可以帮助解决这个问题吗？

python

pyspark

conda

azure-machine-learning-studio

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-11 11:58:25

您的问题没有正确描述问题，但如果您正在寻找安装命令。然后请看下面，

首先安装pyspark。

pip install pyspark

要在现有的HDInsight星火集群上安装MMLSpark，可以在群集头节点和工作节点上执行脚本操作。有关运行脚本操作的说明，请参阅本指南。

脚本操作url为：https://mmlspark.azureedge.net/buildartifacts/0.13/install-mmlspark.sh.

如果您使用Azure门户来运行脚本操作，请转到群集刀片的概述部分中的script actions→Submit new。在Bash script URI字段中，输入上面提供的脚本操作URL。如右侧屏幕截图所示，标记其余选项。

提交，集群应该在10分钟左右完成配置。

来自原始文档：- https://github.com/Azure/mmlspark

票数 0

Stack Overflow用户

发布于 2021-02-13 23:07:07

尽管这是一个古老的问题(顺便说一句，这是一个非常不恰当的问题)，但一些人仍然可能从中受益。

为了使本地Spark环境与mmlspark一起工作，您必须设置环境变量PYSPARK_SUBMIT_ARGS。因为我正在使用Jupyter，所以我发现通过脚本~/.jupyter/jupyter-env.sh (如果您在AWS EC2实例中，则为/etc/profile.d/jupyter-env.sh )设置环境变量是很有用的。环境变量本身应该是：

PYSPARK_SUBMIT_ARGS='--packages com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3,org.apache.spark:spark-avro_2.12:2.4.5 --repositories https://mmlspark.azureedge.net/maven pyspark-shell'

请注意，我们还必须将org.apache.spark:spark-avro_2.12:2.4.5冻结为支持mmlspark的版本。请随意与其他人一起测试。

适用于我的完整jupyter-env.sh脚本是：

export SPARK_HOME=/home/ec2-user/SageMaker/spark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
export PYSPARK_SUBMIT_ARGS='--packages org.apache.hadoop:hadoop-aws:3.2.2,com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3,org.apache.spark:spark-avro_2.12:2.4.5 --repositories https://mmlspark.azureedge.net/maven pyspark-shell'

很明显，您必须更改SPARK_HOME (第1行)以指向您的spark目录所在的位置。另外，请注意，我选择在PYSPARK_SUBMIT_ARGS中设置我的hadoop版本，您应该检查您安装的是哪个版本。

我希望它能帮助其他人，因为我花了一段时间才弄明白这一点。干杯

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51272746

复制

相似问题

问如何通过Conda Python在本地机器上安装和使用mmlspark？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过Conda Python在本地机器上安装和使用mmlspark？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何通过Conda Python在本地机器上安装和使用mmlspark？
EN