教程一:EMR 引擎网络安全组放通
初次在 WeData Studio 中使用 EMR 引擎,需要检查 EMR 使用的安全组是否放通了 WeData Studio 网段(30.22.32.0/19),若未放通,需要对安全组做如下操作:
1. 进入 EMR 控制台,选择具体引擎 > 实例信息 > 配置安全组。

2. 单击具体的安全组,入站规则添加:30.22.32.0/19 TCP:8888,单击确定。

教程二:在 Notebook 中引用另一个 Python 文件
1. 在 b.py 文件中定义一个函数 add_numbers,返回 a+b 的值。
def add_numbers(a,b):return a+b
2. 在 a.ipynb 文件中引用 b.py,可以调用文件 b 中定义的函数,并输出返回值。
import bresult = b.add_numbers(3, 4)print(result)# 7
教程三:在 Notebook 中读取目录中的 CSV 文件
1. 单击文件夹 > 上传,将所需使用的 CSV 文件上传到目录中。

2. 在 Notebook 中通过代码读取目录中的 CSV 文件,并打印。
file_path = "/Workspace/Workspace/Users/celiacui/sample_data.csv" #替换成你的csv文件路径df = spark.read.csv(file_path, header=True, inferSchema=True)#打印dfdisplay(df)