首页
学习
活动
专区
工具
TVP
发布

SPSS能够处理多大规模的数据集?

经常有读者留言询问SPSS能够处理多大规模的数据集?用SPSS处理大数据集会不会卡顿?

为了解答大家的疑惑,松鼠进行了相关测试:在SPSS中,对不同规模的数据集执行多种不同的计算任务,记录它们所需的时间。将最终得到的分析结果清晰地展现在下面的两张表格中。

在下面的实验测评环节,使用的数据集变量相同,仅数据的行数不同。这些测试数据集都包含如下图所示的11个变量数据集行数分别为10万、100万、1000万、10000万。(这些数据集是通过SPSS的【复杂抽样】功能进行有放回抽样而产生的)

测试分两种

一、对变量相同、行数不同的数据集分别执行5种不同分析任务。

二、对变量相同、行数不同、不同格式的数据文件进行导入测试。

测试平台:处理器I7 7700K 、内存16GB ,所有测试均使用同一台电脑。

一、对变量相同、行数不同的数据集分别执行5种不同分析任务

对变量相同,不同规模的数据集进行5种不同的分析,所用时间如下表:

从上面的表格可知:

1、对于小数据集、不管执行什么分析,能立即得到分析结果;

2、对千万级别的数据执行一些常规分析,几十秒内可完成;

3、对于亿级别的数据,可执行一些简单分析,执行复杂分析的时间太长。

二、对变量相同、行数不同、不同格式的数据文件进行导入测试。

对于非SPSS格式的数据文件,如果文件太大,读取将会非常耗时。这里对一批不同格式的数据文件进行导入测试,所用时间如下表:

从上面的表格可知:

1、读取SPSS文件的速度最快,读取Stata文件也很快,读取Excel文件很慢,读取CSV文件的速度尚可接受。

2、需要处理和分析的数据集通常不是SPSS格式的文件,建议以CSV格式存储这些待处理的文件。

注意,以上测试中,数据集中有11个变量,如果变量数多于11个,那么相同行数的数据集,在部分测试中所需的时间可能会更长。

综上,在SPSS中处理千万级别及以下的数据集是完全没问题的,且执行时间很短;这已经满足了绝大多数人的分析需求。如果数据集规模达到了亿级别,SPSS中执行复杂分析所花费的时间相对较长,不愿意等的话,建议使用其它性能更强的分析软件。

SPSS中可以快速导入亿级别的SPSS格式文件,但我们获取的很多数据集最初并不是以SPSS格式存储的,建议先在R语言等编程软件中将数据转换为SPSS格式再导入SPSS软件中,或者先以CSV格式存储数据,然后将其导入到SPSS中,再转存为SPSS格式,后续直接使用SPSS格式的文件,避免重复导入这些耗费时间的格式的文件。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191021A076VX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券