首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

工业互联网的“冗余无效数据”为什么清洗这么难?

工业大数据与互联网大数据的最大差异在于对数据特征的提取。工业大数据更关注数据表征背后的物理意义及事物之间关联的机理逻辑,而互联网大数据则更倾向于依靠统计学工具寻找事物间的相关性。那么非常多无效数据、冗余数据会给系统带来什么问题呢?

一、工业大数据的低质性意味着企业需要想办法提高数据质量,否则就无法发挥工业大数据的作用。数据碎片化的缺陷也会对数据质量产生影响,也就是说数据的量并不能保障数据的质,甚至导致了数据的低质性。

二、在工业大数据中,低质量的数据不但不能起到应有的作用,反而会对分析过程造成不良影响,进而导致分析结果无法投入实际应用。而互联网大数据则不同,互联网大数据可以只挖掘数据本身,数据之间的关联也可以不用考虑数据本身的含义,单纯地以结果为导向。

对于互联网大数据的这一表现,最典型的例子就是超市在对用户的购物习惯进行分析后,会对商品摆放的位置做出调整,如将啤酒摆放在尿不湿的对面,虽然二者之间并没有什么能说得通的逻辑关系,但销量还是因此有所提升。通过以上论述,我们能总结出,相比于互联网大数据对结果的精准程度要求不高,工业大数据对预测结果的容错率要低很多。

互联网大数据在进行预测和决策时,只需要考虑两个事物之间的关联是否具有显著性,其他如个体差异等问题在有足够大的样本量时都可以被忽略,于是导致了互联网大数据预测结果的低准确性。

比如在向用户推荐电影时,只要数据分析显示出70%左右的匹配度就可以向用户推荐,即使用户并不感兴趣也不会造成什么损失,但是工业生产则有所不同,即使误差甚微也可能会造成严重的后果,用户因此会付出巨大的代价。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201022A0232J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券