文章/答案/技术大牛

发布

社区首页 >问答首页 >机器学习在软件开发中的应用

问机器学习在软件开发中的应用
EN

Data Science用户

提问于 2014-11-26 08:47:49

回答 5查看 519关注 0票数 6

我是编程背景的。我现在在学分析。我正在学习从基本统计到建立模型的概念，如线性回归、logistic回归、时间序列分析等。

由于我以前的经验完全是编程方面的，所以我想对程序员所拥有的数据做一些分析。

比如说，让我们了解下面的详细信息(我正在使用SVN存储库)

人名、代码签入日期、文件签入、签入次数、分支、签入日期和时间、生成版本、缺陷数量、缺陷日期、有缺陷的文件、生成版本、缺陷修复日期、缺陷修复时间，(请随时添加/删除所需变量)

我只需要一个触发器/起点，说明如何处理这些数据。我能带着这些数据带来任何见解吗。

或者，您可以提供任何链接，其中包含有关类似工作类型的信息。

machine-learning

predictive-modeling

software-development

回答 5

Data Science用户

发布于 2014-11-26 09:37:43

当然-是的。问得好。我自己在想这件事。

(1)收集数据。第一个问题是:收集足够的数据。您提到的所有属性(日期、名称、签入标题/注释、N of deffect等)都可能有用--尽可能多地收集。一旦你有了一个大的项目，一批开发人员，很多分支，频繁的提交和你已经开始收集所有的数据，你就准备更进一步。

(2)提出好的问题。下一个你应该问自己的问题是:你要测量、估计和预测什么影响。可能的虫子的频率？追踪不准确的“提交人”？有风险的分支？想要看到一些用户/bug/提交组根据一些指标吗？

(3)模型的选择。一旦你提出了问题，你就应该遵循数据科学的一般方法--从你的数据中提取所需的特征，选择合适的模型，训练你的模型并测试它，应用它。这是一个过于宽泛的过程，无法讨论这个帖子，所以请使用这个网站来得到正确的答案。

票数 3

Data Science用户

发布于 2014-11-26 21:20:52

毫无疑问你可以。关键是要有一组假设(即你想要评估的假设\场景)，并把数据放在一起来证明\反驳你认为是真的。

以下是一些值得注意的事情：

做好失望的准备:通常情况下，一旦你投入了时间和精力建立这些模型，分析师往往会倾向于发布结果(发布偏好)。把这当作一种探索，有很多死胡同，目标应该是找到那些不是的。
了解你的数据:如果没有真正的理解，你就不能让你的数据神奇地去做事情。确保您非常了解不同的属性(预测器和受抚养人)。很好地了解您的数据将使您能够清理它并考虑合适的模型。所有的模型对所有的数据都不是很好--在建模之前，拥有大量分类变量的数据可能需要创造性的解决方案，比如降维。
了解“操作”过程:了解公司内部的运作方式将有助于你完善你想要测试的一套假设。例如，在上面的场景中，了解开发人员是如何使用变更管理软件的，以及管理设置的类型，这将帮助您了解为什么数据会以这样的方式出现。有些开发人员可能只关注某些比其他模块更成熟的模块，可能只在某些转换上工作，这可能会限制检入多少行代码、发现多少bug等等。

话虽如此，以下是一些您可能想要测试的场景：

开发效率:不同的开发人员在相同模块上的超时工作会导致bug的增加或减少。更多的代码行会导致更多的错误吗？也许这是一个指标，表明程序需要进一步分解成更小的组件，人们在一天中的某些时候可能比其他时间更有效率--一天中的时间会影响bug的引入吗？
模块成熟度:哪个模块的问题最多？它们是由更多的开发人员还是更少的开发人员处理的？缺陷在修复之前会持续老化很长时间吗？

当然，这些问题会根据你正在做的事情而改变。

希望这能有所帮助。

票数 3

Data Science用户

发布于 2015-03-06 02:43:38

以下是我正在考虑的两个想法。

虫预测

根据以前的活动，可以预测未来的bug。网上有许多文件可供查阅。我记得有一篇关于从SVN数据中预测错误的文章。(仅用于软件错误预测的google )

来自软件跟踪的错误位置

错误可能类似于跟踪输出中的罕见事件或异常。可能您可以对错误进行分类并找出导致错误的过程。我现在正在考虑一个这样的系统(但不确定它是否成功)。我在这里问了一个问题：https://stats.stackexchange.com/questions/140232/error-position-in-software-trace-file

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/2543

复制

相似问题

问机器学习在软件开发中的应用
EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习在软件开发中的应用EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问机器学习在软件开发中的应用
EN