首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >机器学习在软件开发中的应用

机器学习在软件开发中的应用
EN

Data Science用户
提问于 2014-11-26 08:47:49
回答 5查看 519关注 0票数 6

我是编程背景的。我现在在学分析。我正在学习从基本统计到建立模型的概念,如线性回归、logistic回归、时间序列分析等。

由于我以前的经验完全是编程方面的,所以我想对程序员所拥有的数据做一些分析。

比如说,让我们了解下面的详细信息(我正在使用SVN存储库)

人名、代码签入日期、文件签入、签入次数、分支、签入日期和时间、生成版本、缺陷数量、缺陷日期、有缺陷的文件、生成版本、缺陷修复日期、缺陷修复时间,(请随时添加/删除所需变量)

我只需要一个触发器/起点,说明如何处理这些数据。我能带着这些数据带来任何见解吗。

或者,您可以提供任何链接,其中包含有关类似工作类型的信息。

EN

回答 5

Data Science用户

发布于 2014-11-26 09:37:43

当然-是的。问得好。我自己在想这件事。

(1)收集数据。第一个问题是:收集足够的数据。您提到的所有属性(日期、名称、签入标题/注释、N of deffect等)都可能有用--尽可能多地收集。一旦你有了一个大的项目,一批开发人员,很多分支,频繁的提交和你已经开始收集所有的数据,你就准备更进一步。

(2)提出好的问题。下一个你应该问自己的问题是:你要测量、估计和预测什么影响。可能的虫子的频率?追踪不准确的“提交人”?有风险的分支?想要看到一些用户/bug/提交组根据一些指标吗?

(3)模型的选择。一旦你提出了问题,你就应该遵循数据科学的一般方法--从你的数据中提取所需的特征,选择合适的模型,训练你的模型并测试它,应用它。这是一个过于宽泛的过程,无法讨论这个帖子,所以请使用这个网站来得到正确的答案。

票数 3
EN

Data Science用户

发布于 2014-11-26 21:20:52

毫无疑问你可以。关键是要有一组假设(即你想要评估的假设\场景),并把数据放在一起来证明\反驳你认为是真的。

以下是一些值得注意的事情:

  • 做好失望的准备:通常情况下,一旦你投入了时间和精力建立这些模型,分析师往往会倾向于发布结果(发布偏好)。把这当作一种探索,有很多死胡同,目标应该是找到那些不是的。
  • 了解你的数据:如果没有真正的理解,你就不能让你的数据神奇地去做事情。确保您非常了解不同的属性(预测器和受抚养人)。很好地了解您的数据将使您能够清理它并考虑合适的模型。所有的模型对所有的数据都不是很好--在建模之前,拥有大量分类变量的数据可能需要创造性的解决方案,比如降维。
  • 了解“操作”过程:了解公司内部的运作方式将有助于你完善你想要测试的一套假设。例如,在上面的场景中,了解开发人员是如何使用变更管理软件的,以及管理设置的类型,这将帮助您了解为什么数据会以这样的方式出现。有些开发人员可能只关注某些比其他模块更成熟的模块,可能只在某些转换上工作,这可能会限制检入多少行代码、发现多少bug等等。

话虽如此,以下是一些您可能想要测试的场景:

  • 开发效率:不同的开发人员在相同模块上的超时工作会导致bug的增加或减少。更多的代码行会导致更多的错误吗?也许这是一个指标,表明程序需要进一步分解成更小的组件,人们在一天中的某些时候可能比其他时间更有效率--一天中的时间会影响bug的引入吗?
  • 模块成熟度:哪个模块的问题最多?它们是由更多的开发人员还是更少的开发人员处理的?缺陷在修复之前会持续老化很长时间吗?

当然,这些问题会根据你正在做的事情而改变。

希望这能有所帮助。

票数 3
EN

Data Science用户

发布于 2015-03-06 02:43:38

以下是我正在考虑的两个想法。

  1. 虫预测

根据以前的活动,可以预测未来的bug。网上有许多文件可供查阅。我记得有一篇关于从SVN数据中预测错误的文章。(仅用于软件错误预测的google )

  1. 来自软件跟踪的错误位置

错误可能类似于跟踪输出中的罕见事件或异常。可能您可以对错误进行分类并找出导致错误的过程。我现在正在考虑一个这样的系统(但不确定它是否成功)。我在这里问了一个问题:https://stats.stackexchange.com/questions/140232/error-position-in-software-trace-file

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/2543

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档