我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....In [1]: from pyspark.sql.functions import rand, randn
In [2]: # 创建一个包含1列10行的DataFrame....可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息....In [1]: # 创建一个以(name, item)为字段名的DataFrame
In [2]: names = ["Alice", "Bob", "Mike"]
In [3]: items = ["...Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布.