我是编程背景的。我现在在学分析。我正在学习从基本统计到建立模型的概念,如线性回归、logistic回归、时间序列分析等。
由于我以前的经验完全是编程方面的,所以我想对程序员所拥有的数据做一些分析。
比如说,让我们了解下面的详细信息(我正在使用SVN存储库)
人名、代码签入日期、文件签入、签入次数、分支、签入日期和时间、生成版本、缺陷数量、缺陷日期、有缺陷的文件、生成版本、缺陷修复日期、缺陷修复时间,(请随时添加/删除所需变量)
我只需要一个触发器/起点,说明如何处理这些数据。我能带着这些数据带来任何见解吗。
或者,您可以提供任何链接,其中包含有关类似工作类型的信息。
发布于 2014-11-26 09:37:43
当然-是的。问得好。我自己在想这件事。
(1)收集数据。第一个问题是:收集足够的数据。您提到的所有属性(日期、名称、签入标题/注释、N of deffect等)都可能有用--尽可能多地收集。一旦你有了一个大的项目,一批开发人员,很多分支,频繁的提交和你已经开始收集所有的数据,你就准备更进一步。
(2)提出好的问题。下一个你应该问自己的问题是:你要测量、估计和预测什么影响。可能的虫子的频率?追踪不准确的“提交人”?有风险的分支?想要看到一些用户/bug/提交组根据一些指标吗?
(3)模型的选择。一旦你提出了问题,你就应该遵循数据科学的一般方法--从你的数据中提取所需的特征,选择合适的模型,训练你的模型并测试它,应用它。这是一个过于宽泛的过程,无法讨论这个帖子,所以请使用这个网站来得到正确的答案。
发布于 2014-11-26 21:20:52
毫无疑问你可以。关键是要有一组假设(即你想要评估的假设\场景),并把数据放在一起来证明\反驳你认为是真的。
以下是一些值得注意的事情:
话虽如此,以下是一些您可能想要测试的场景:
当然,这些问题会根据你正在做的事情而改变。
希望这能有所帮助。
发布于 2015-03-06 02:43:38
以下是我正在考虑的两个想法。
根据以前的活动,可以预测未来的bug。网上有许多文件可供查阅。我记得有一篇关于从SVN数据中预测错误的文章。(仅用于软件错误预测的google )
错误可能类似于跟踪输出中的罕见事件或异常。可能您可以对错误进行分类并找出导致错误的过程。我现在正在考虑一个这样的系统(但不确定它是否成功)。我在这里问了一个问题:https://stats.stackexchange.com/questions/140232/error-position-in-software-trace-file
https://datascience.stackexchange.com/questions/2543
复制相似问题