为何使用图表展示数据
数据作为人工智能中的核心重要部分之一, 它的质量决定着最终训练出模型的好坏。而如何获取到高质量的数据也是人们常常考虑的事情, 从数据采集、数据抽取转换、数据建模、模型训练到模型评估目前已经有很多算法、工具支撑。然而工具、算法是死的,很难应对复杂的应用场景, 需要观察经过算法、工具处理后的数据是否满足要求,一个处理不当都可能导致数据质量的下降, 所以还是需要人工参与,在一个模型训练中算法工程师需要花费很大的精力在数据上。
举个简单的例子目前有一组数据, 其中A-D数据没有问题, E为存在问题的数据。
正常情况下, 上述数据在做数据清洗的时候需要把问题数据全部排除掉, 目前有很多工具支持这种数据的清洗,一个简单的方法就是删除X>10的数据。 但是在使用这个工具的时候你必须清楚业务规则(删除规则)即“大于10的数据是问题数据”,如果不清楚这条规则就很难操作,只能通过肉眼查看那些数据的分布比较离谱,这些离谱的数据可能就是问题数据。 如果数据量大的话以表格的形式看这些数据分布很难一眼看出来。如果换一种展示风格会是什么样:
图1. 二维坐标展示数据
显然二维坐标图比表格更能迅速的判断出那个数据是问题数据。 因此以图表的形式展示数据可以减少工程师花费在数据上的精力。间接提升数据的质量。
这个例子只是一个比较简单的辅助数据治理工程师进行数据清洗的一个例子, 在整个模型训练过程中还有许许多多的图表都可以起到辅助数据治理工程师、算法工程师提升工作效率的场景。
在模型的训练中会用到辅助工具,比如训练集生成、训练集扩缩、模型评估等等, 在这些工具中如果能够正确的使用图表进行展示会极大的提高工作效率。
针对Case有的训练样本数据过多,有的训练样本过少,在这种情况下算法工程师可能会通过一些算法技术例如过采样、欠采样、分层采样对训练集进行扩充、缩减。扩缩的结果如果通过表格看会很费劲,几乎不可视,不知道经过扩充缩减的数据到底是什么样。 但是使用散点图就可以很好的对比原数据集以及采样后数据集的分布情况(多维数据可使用降维), 更有效的指导算法工程师进行下一步操作。
图表通用的应用场景
目前业界很流行的Tableau工具,他使用到了大量的图表进行数据的展现, 简单列举下Tableau中图形使用场景:
条形图:展示跨类别比较数据
折线图:查看数据中随时间推移的趋势
散点图:考察不同变量之间的关系
热图:显示两种因素间的关系
直方图:了解数据的分布情况
甘特图:显示项目进度;显示随时间推移的其他事物使用事项
饼图:显示比率
树状图:以相对于整体的比例显示分层数据
盒形图:显示一组数据的分布情况
填充气泡图:显示数据沿两个轴的集中度
标靶图:参照目标评估指标表现
除了Tableau那些应用场景, 再附上一张互联网流传比较广泛的图表展示使用场景图:
图2. 图形化展示使用场景
其实图表的应用场景都类似, 重点是如何在自己的领域正确的使用图表。
运营商网络的数据比较复杂, 数据庞大、 多维度、 关联关系多等等。如何将图表运用在运营商数据的展示上还需要多摸索实践。
更多信息,请您关注“人工智能园地”
领取专属 10元无门槛券
私享最新 技术干货