文章/答案/技术大牛

发布

第08章问答

文章来源：企鹅号 - 嘉数汇

注：微信公众号后台出了点小毛病，有漏掉的回答可以告诉我。

曹云昀：

数据科学过程包括背景与研究目标，数据获取，数据预处理，探索性分析，数据建模，交流与展示，我认为最具有挑战性的是数据预处理吧，数据预处理是整个过程的关键，但数据量大，处理杂乱，重复，不完整的数据耗费时间长，且需要采用多种方法，如解决冗余问题，平滑噪声数据，数据集成，规范化等，才能得到可以用于建模的数据。数据科学工作流工具使数据科学过程更加便捷，数据科学工作流工具一般支持数据库管理系统的数据库节点，数据转换，以及常用的数据分析和可视化方法。KNIME，提供完全图型化的操作方式，操作流程简便、结果产出直观，和丰富的数据读取和加工操作，同时支持从数据库中获取数据，提供较为完备的数据挖掘方法。所以，我认为是值得学习的。

牛悦安：

关于数据科学过程哪个步骤具有挑战性的问题，我认为是数据建模，相对于数据科学过程的几个步骤——提出问题，获取数据，数据预处理，探索数据，数据建模和交流与可视化过程，是最没有固定套路的。对于数据预处理和可视化结果，可以说每种情况已经有比较完善的处理方法，提出问题，获取数据是随情况而定的不确定因素，当在数据科学过程中所占的地位不如数据建模这一核心步骤。探索数据又最终是为了数据建模，所以综合比较来看，我认为数据建模更为有挑战性。更直观来看数据建模的难度，他要直面对测试集的拟合度，过拟合的问题，所发复杂度太高无法计算等必须直面的难题。关于如何看待KNIME等数据科学工具流的问题，我认为它们是有意义的，第一它大大降低了数据科学过程的门槛，门外汉也有使用的可能，初学者也能更快入门；第二，对于成熟的数据科学家，这类工具也能便利他们的工作，让他们把精力集中在难点上，常规工作交给这类工具，自动化处理。

刘丹琪：

数据的清洗工作非常具有挑战性，为后面数据收集和存储打下基础，意义相当重大，同时，数据清洗工作也具有相当大的复杂性，要填补空缺值，平滑噪声数据，纠正不一致的数据，消除冗余数据，其中会有很多的技巧，我们可以认为清洗工作包含了分析方法所能决定的各种任务，这有可能是交换文件的格式、字符编码的修改、数据提取的细节等。值得学习，KNIME是开源的，便于数据的分享和交流。它提供的模块化与便利的操作环境，可以用直观的方式整合，转换，分析大量的数据。在生命科学领域中，KNIME已经成为整合众多第三方软件不可或缺的工作流。通过数据挖掘可以从大量有序或者杂乱无章的数据中发现潜在的规律，甚至通过训练学习还能通过已知的数据预测未来的发展变化，这正是数据科学的工作，KNIME非常值得我们学习。

雷镇豪：

1.数据采集最具有挑战性。有些数据可能是来自内部业务，例如电商应用的数据，但是如今随着社交网络的发展，数据项目的数据已经不能局限于企业本身的数据，必须包含来自各种外部来源的数据，同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此，数据采集可能需要一定的创造力。

2.KNIME是基于Eclipse环境的开源商业智能工具。它是通过工作流来控制数据的集成、清洗、转换、过滤，再到统计、数据挖掘，最后是数据的可视化。虽然KNIME是一个非常强大的开源工具，但是它也有自己的局限性。主要是:可视化并不像其他一些开源软件(比如RStudio)那样简洁优雅；版本更新不受支持;你将不得不重新安装软件(也就是说，从版本2更新到版本3，你将需要重新安装)；贡献社区不像Python或CRAN社区那么大，因此新的功能需要很长时间才能添加到KNIME中。我觉得完全值得学习，因为KNIME是一个基于GUI工作流的强大分析平台。这意味着你不必知道如何编写代码(对于初学者来说就是一种解脱)，就能够使用KNIME并获得洞察力。

张润权：

一．我觉得数据预处理最有挑战性，因为这个过程会改变数据原本的性质，例如数据规约时会合并字段，如果不能恰当处理会使之后的工作难以进行。二．我觉得工作流工具有其价值，他们定义并支持一个较有效率的工作流程，使用者不仅可以使用方便的集成环境，还可以参考借鉴软件对工作流程的组织划分，值得学习。

梅佳奕：

1）在我看来数据预处理步骤最具挑战性，因为它的目的是将原始的数据整理成为数据模型能用的数据，在这个阶段中，完成数据清洗、集成、变换、规约，需要考虑获得原始数据的方法技术、了解已有数据的分布和数据间相关性、考虑技术制约、理解问题需求......还需要对目标模型有一个预估，为不同模型准备可以直接使用的数据，方便比较不同模型的效率。我认为在做数据预处理的时候，应当有对全局的考虑，这样才能将该步骤前、后的工作发挥最大效用。

2）KNIME及其同类数据科学工作流工具满足了0编程基础用户的需求，它直观而易理解，将分析组件模块化之后，使工作条理清晰。这些优势使得它们能够跨领域运作，如我了解在理科领域，该类软件就常被使用于实验分析，不可否认它在其他领域如商、互联网、管理，但凡有数据聚集的地方，都可运作。而对比编程方式执行的分析，工作流的优势在于敏捷与灵活：可以增量地验证对已分析数据的处理，也可以将一个工作流用作模板，每次稍作修改用于同类工作的处理。这几点正好切合了当代发展所需。

刘颖凡：

1. 我认为数据预处理是最具有挑战性的一步。高质量的数据是高质量数据分析的基础，我们可以通过各种开放数据平台获得大量数据，而从其中筛选出对我们的研究有实质性作用的部分需要耗费的时间和精力是远远超过前者的。一组庞大无序的数据，从不同的研究角度出发，获得的信息也是不同的，因此，通过数据预处理找到我们需要的数据，对避免无用功和提高准确率是十分重要的。2.如今的学习平台中有许多诸如KNIME这样的数据科学工作流工具，比如spss，tableau等。这类工作流工具值得我们学习，他们的产生让我们对理论知识的熟练要求度降低，因为软件可以直接帮你计算出结果，因此我们需要掌握的重点就偏向于对这类相关软件的具体操作。这类工具大大提高了数据分析、模型建立的效率，因此非常值得我们学习。但同时这类工具的类型也有很多，私认为精掌握一至两个操作工具为最佳。

耿岱琳：

1.我认为数据科学过程中“数据预处理”这一步最具有挑战性，采集到的数据一定存在各种各样的问题，比如杂乱、重复、噪声等，预处理的质量直接决定了最终结果。且由于不同数据在描述的对象、收集方法等方面存在较大差异，数据预处理方法十分灵活，需要仔细判断。且这一步十分枯燥，这也是一种挑战性。 2.我认为KNIME等工具降低了数据科学过程实现的难度，使得数据科学过程不再只能由计算机等专业人士来完成。但是它在把各个阶段都集中到一起的同时，每一阶段完成的质量和灵活性必然会下降。所以它利弊皆有，有一定实用的空间。

熊双宇：

1.最具有挑战性的是数据建模，因为数据量大类杂，需要选择合适的变量和算法，不断地重构变量，通过模型的测试查看可解释性，减少计算错误来优化模型。2.从资料上看，KNIME能够通过节点的组合执行基本的数据输入、操作转换、数据分析和可视化、线性回归到高级深度学习等功能，形成一个工作流。KNIME有与其他工具和语言互通的接口，如可以调用python，将其代码块组织到当前workflow中；在设计上，通过节点的颜色和形状的区别减少用户使用时的低级错误、支持节点的封装，使数据科学工作流更直观地呈现。所以我觉得值得学习。

雷雅婧：

数据预处理最具有挑战性。因为原始数据中存在杂乱性、重复性、不完整性、存在噪声等问题。数据预处理需要对这些原始数据进行处理，为数据分析过程提供干净、准确、简洁的数据，减少数据处理量，提高数据分析的效率和准确性。处理内容大致分为数据清晰、数据集成、数据变换、数据规约这几类，这些过程在整个数据处理流程中最耗费时间且会枯燥和烦闷，但不可或缺。如KNIME这样的数据科学工作流工具给专业从事人员便捷且高效的平台来处理冗杂的数据，是十分具有学习价值的。

蔡闻宇：

我认为最具有挑战性的步骤是数据准备（数据预处理）。首先，这一步骤会直接影响到之后所有步骤所用数据的质量。原始数据杂乱，重复，不完整和存在噪声，所以模型在原始数据上表现糟糕。如果这一步骤没有好好处理，会导致之后各个步骤的成果大打折扣。其次，数据准备又需要大量的时间，人力投入，而我们又很难通过其他方法来减少这部分的工作量。我觉得knime这种数据科学工作流工具是值得掌握的。科学工作流本身就是相对于传统工作流而言的。我认为，传统工作流更加注重“业务自动化”，着眼点是类似“计算思维”，而科学工作流偏重“工作数据的共享”，而着眼点是“数据思维”。我觉得学习这类工具是有助于培养我们的数据思维的。

马源航：

对于一个完整的数据科学过程来讲，我认为最具挑战性的是数据的预处理。“巧妇难为无米之炊”，对于一个数据科学的过程来讲，你没有合适的数据，你后面的分析与展示也就无从谈起。为什么具有挑战性，可以从数据预处理的主要任务来看。数据预处理的主要任务包括，「数据清洗」、「数据集成」、「数据变换」、「数据规约」。对于一个原始数据来说，它可能具有很多缺点，「杂乱性」、「重复性」、「不完整性」、「存在噪声」。在数据建模的过程，对数据的要求很高，这就导致每一个缺点都对你最后的结果有巨大影响，如果没有一个合适的处理方式，你将会在这个上面浪费很多时间。这也是为什么说，数据科学过程的百分之八十都取决于探索式数据分析和数据清洗的效果。诚然，一个好的建模对结果来说至关重要，但是对于我们来说，已经存在许多很好的工具或者成果可以使用，我们只需根据数据集和对结果的要求来选择相应的工具即可。而且，创造或者优化数据模型是数学家的工作。我们要做的应该是用他们的成果去创造更多的价值。对于KNIME这样的数据科学工作流工具，我认为是非常有价值的。其实在不同数据科学过程来说，有些步骤其实是在重复进行的，只要有重复的地方，就有这些工具存在的价值。就像工厂代替小作坊，带来的不仅仅是效率的提升，更意味着你可以把精力放在更重要的地方，比如采取更好的模型。而且这些工具为一些非专业人士提供了一条数据分析的捷径，可以避免学习许多其他无关紧要的东西。此外，学习这些工具有助于提升你对整个数据科学过程的理解。

魏如蓝：

我认为数据科学过程中的数据预处理最具有挑战性。数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题，坊间常说：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征，更好的表示预测模型处理的实际问题，提升对于未知数据的预测准确性。。数据预处理可能要经过归一化处理，特征二值化，one-hot编码，缺失值计算，数据变换，小乔初样本不均衡，去除噪声等步骤，需要复杂的数学基础与算法。

Knime是基于Eclipse的开源数据挖掘软件，它通过工作流的方式来完成数据仓库以及数据挖掘中数据的抽取-转换-加载（Extract-Transform-Load）操作。其中工作流又是由各个功能便利的结点来完成，节点之间相互独立，可以单独执行并将执行后的数据传给下一个结点。最初的目标是创建一个模块化，高度可扩展和开放的数据处理平台，从而轻松集成不同的数据加载，处理，转换，分析和可视化探索模块，而不必关注任何特定的应用领域。他是一个协作和研究平台，也是作为各种其他数据分析项目的集成平台。

莫根杰：

1、当然是数据建模啦。数据建模的过程极具挑战性，例如可供的选择的模型就有多种，建模的算法也有多种选择，建模的工具组合也有不同。在建立模型之后最后还得不断调整优化模型，模型倘若建得不好就又得推倒重头再来了。 2、 KNIME这种数据科学工作流工具集成了数据挖掘处理分析报告等功能，将流程的所需用到的功能整合到一个工作流中，是个方便的工具。KNIME也被应用在越来越多如商业、咨询等领域中。这证明了其有广泛的应用范围，值得我们去学习这种工具。

邹弘嘉：

我觉得数据科学中最困难的是数据的搜集，因为很多时候你想了解到的数据都是被保护起来的，你需要用复杂的解密算法去获取这些数据，而这些数据往往也是最有价值的，当你获取了原材料之后，你便有了各种方法去对他进行加工，处理和保存，但这些在没有原料-----数据的情况下都是空谈，所以我觉得获取数据可能是数据科学中最难的一步。

发表于: 2018-11-292018-11-29 23:04:17
原文链接：https://kuaibao.qq.com/s/20181129A1QHU000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

第08章问答

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐