我有一个有字段“课程”的数据集,每门课程都有不同数量的课程。我试着比较每堂课和小组的测验次数,但由于每门课程的课程数量不同,我似乎无法找到最佳的方法来比较课程的访问次数。课程数量越多,相关课程总是排在第一位的可能性就越大(因为他们的测验最多)。我们如何对课程进行排名?假设Course_1有6节课,附加的小测验被不同的学习者访问15次,而Course_2有3节课,附加的小测验有10次,我们如何比较这两门课程?
在统计方面,有哪些方法可以分析这些数据?我没有在数据上应用任何机器学习技术,因为我们没有训练任何数据,只是试图比较数据集。
发布于 2022-12-22 07:37:16
您可以将每门课程访问的小测验数量除以一门课程的课程数。这将导致一门课程的一堂课所能获得的平均测验,并使其在不同课程之间具有可比性。对于Course_1,这是2.5 (15/6),对于Course_2是3.33 (10/3)。你也可以计算每堂课的测验,如果可以的话,然后取课程范围的中位数。
https://datascience.stackexchange.com/questions/117249
复制相似问题