可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息....若是正数意味则着有一个趋势: 一个变量增加, 另一个也增加. 若是负数则表示随着一个变量增加, 另一个变量趋于减小...., 而两个随机生成的列则具有较低的相关值..
4.交叉表(列联表)
交叉表提供了一组变量的频率分布表....试想一下, 如果items包含10亿个不同的项目:你将如何适应你的屏幕上一大堆条目的表?
5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用....对于采用两个参数作为输入的函数, 例如pow(x, y)(计算x的y次幂), hypot(x, y)(计算直角三角形的斜边长), 两个独立的列或者列的组合都可以作为输入参数.