多范式数据科学的应用：ThrustSSC超音速汽车工程

WolframChina

发布于 2018-10-22 16:13:48

5750

发布于 2018-10-22 16:13:48

文章被收录于专栏：WOLFRAM

本文译自Wolfram技术沟通与战略总监Jon McLoone于2018年9月11日的博客文章：Thrust Supersonic Car Engineering Insights: Applying Multiparadigm Data Science。

在数据面前，拥有一套功能博大的工具集和一个开放的头脑往往可以帮助我们洞悉仅通过统计分析或机器学习的镜头所不能看到的情况。这在我们 Wolfram Research 称为多范式数据科学。我将在这里展示它在超音速汽车工程领域进行的一项小型探索，看它能给我们带来怎样的有趣发现，其中将综合运用到微积分、图论、信号处理、优化和统计学等多门学科。

故事开始于与Bloodhound团队关于数据的一场对话。该团队试图创造一辆时速1000英里的汽车。我提议先花一两个小时查看一些样本数据，以便他们了解可能需要做些什么。他们发给我一个奇怪的二进制文件，其中含有来自ThrustSSC汽车（当前世界陆地速度记录的保持者）单次亚音速运行的32个传感器所记录的输出。

数据导入

我做的第一件事就是将我所得到的通道名称和描述信息进行编码，以便我可以轻松查询：

然后开始解码文件。没有人建议我该采用什么格式，所以我首先做的就是让文件通过200多个全自动导入过滤器：

由于导入命令Import是自动执行的，只需要几分钟时间就将候选格式的范围缩小。因为知道有通道并且会对每次导入和转换的结果重复可视化，以判断是否看起来像真实世界的数据，我很快就发现以下情况：

这32个视图是全自动得到的，完全无需我担心诸如绘图范围之类的细节，因此我能够及时发现何时获得了正确的导入过滤器及恰当的Partition和Transpose组合。它还让我能通过反复试验快速挑选出我感兴趣的时间间隔。

现在数据导入了，我们可以查看所有通道，并立即发现SYNC和Lng1fm没什么用，所以我把它们从列表中删除：

图与网络：寻找信号家族

通过可视化可以立即发现一些看上去非常相似的图形，例如车轮的RPM（每分钟转速）。将它们分组到类似的集群似乎是个好主意。我用的是社交网络分析的一个方法：基于各个通道之间的关系形成图社区。我选择了一个简单的家族关系——相关性

不低于为0.4的流，按相关强度加权：

我最终得到了三个主要的集群和五个不相关的数据流。这是匹配的标签：

一般看来，右边的集群与速度有关，而左边的集群与油门有关，但令人感兴趣的也许是上方由喷嘴位置、发动机悬置载荷和前悬架位移组成的集群。也许全都与推力相关。

最密切排列的通道是车轮RPM。所有车轮都以600英里每小时的相同速度运行看起来是件好事！但RPM1fm，左前轮是最不相关的。让我们来更仔细地看一下：

最优化：数据比较

我没有任何仪器单位，有些基准很奇怪，所以我不打算假定它们是以相同的方式校准。这使得数据比较难上加难。但在比较之前，我可以进行一些最优化来对齐数据。我重新调整和移动第二个数据集，通过差异范数来使两个数据集尽可能相似。我可以忘记最优化的细节，因为FindMinimum可以全权负责：

我们先来看一对紧密对齐的值：

由于RPM3fm的范围大约在0-800之间，可以看到仅有几处后轮不紧密同步。我意识到许多传感器似乎很容易出现短暂的故障，所以有可能唯一真正的峰值是运行最快部位中短暂持续的那个。现在看看前轮：

差异显著增多了。原因是，在速度很高的情况下，沙子开始表现得像液体一样，我不知道这里的安全公差是多少，但左前轮是需要担心的。

我还看了一下前悬架位移之间的差异，结果看到了一个更令人担忧的模式：

不仅数据范围的差异增大, 还可以立即看到周期性振荡随着速度提高而增大。如果我们碰到某种共振, 那可能非常危险。为了更仔细地了解这一点, 我们需要再次切换范式, 使用一些信号处理工具。这是位移之间差异的频谱图。频谱图只是数据分区的离散傅立叶变换大小。在选择分区大小和颜色缩放时可以运用一些技巧, 但我采用的是默认的自动处理。读图时，时间沿着x轴，频率沿着y轴，颜色越深，幅度越大：

我们可以看到，振动是一条值在2000到8000之间的深色线条, 它的频率在运行的早期会增加, 之后又会降低。我不懂工程上的解释, 但我觉得，与恒定频率的振动相比，这降低了危险共振的风险。

微积分: 速度和加速度

加速度应该更令人感兴趣, 但我们没有直接的测量数据, 所以我决定从速度推断。在这些速度下，没有准确的速度测量方式。结果表明, Pitot measurement相当缓慢，并会把特征磨平, 所以更好的方式是使用其中一个车轮 RPM 值。我对100个样本间隔求导, 发现了一些有趣的特征：

可以清楚地看到，加速度一开始是分段增加的, 然后在中间突然降为负值。只有当你将油门的位置叠加时才能解释：

现在我们看到，司机逐步松开油门, 看汽车如何反应, 然后振动才真正达到3500左右。汽车达到峰值加速度, 但随着风阻的建立, 加速度逐渐下降到接近零（在这时汽车将保持最大速度巡航，直到司机完全关掉油门）。风的阻力会导致巨大的减速。我猜有一个降落伞部署以解释减速的峰值，而真正的刹车在8000时使汽车停止。

信号处理

我还在琢磨振动的情况, 决定从不同的角度看悬架上的载荷。这个小波尺度图让我眼前一亮：

读图的方式与前面的频谱图相同，时间沿着x轴，频率沿着y轴。但尺度图有一个很好的属性来估计数据的不连续性。在4500和5500处有一对主要特征, 在那里出现了高频率振动, 然后有一个不连续点。应用尺度图需要进行一些选择, 但自动化处理可以帮助我完成一些选择，从12个小波和12度分辨率选项中选出MexicanHatWavelet [1], 从而让我更专注于解释图形。

不过，我还是对解释感到迷惑，于是把图形拿给工程团队看，希望他们能有所发现。他们立即知道它是什么。虽然这辆车是亚音速运行, 车轮上边缘以两倍车速向前移动。当车轮的上边缘突破了音速，然后再返回亚音速时, 这些特性就被发现了。8000左右出现的小特征对应于停车时物理刹车的部署。

部署：重新创建驾驶舱

一个数据科学项目包括一系列分骤，但大体上可以把它们归属于：数据获取，分析和部署。部署可能是设置自动生成的报告、创建API以服务企业系统，或只是创建演示文稿。因为我仅有几个小时，时间仅够把我的工作做成一个幻灯片笔记本。但我想在这里展示另一个部署，所以我迅速创建了一个仪表板，来重建一个简单的驾驶舱视图: