SPSS能够处理多大规模的数据集？

文章来源：企鹅号 - 松鼠学堂

经常有读者留言询问SPSS能够处理多大规模的数据集？用SPSS处理大数据集会不会卡顿？

为了解答大家的疑惑，松鼠进行了相关测试：在SPSS中，对不同规模的数据集执行多种不同的计算任务，记录它们所需的时间。将最终得到的分析结果清晰地展现在下面的两张表格中。

在下面的实验测评环节，使用的数据集变量相同，仅数据的行数不同。这些测试数据集都包含如下图所示的11个变量，数据集行数分别为10万、100万、1000万、10000万。（这些数据集是通过SPSS的【复杂抽样】功能进行有放回抽样而产生的）

测试分两种：

一、对变量相同、行数不同的数据集分别执行5种不同分析任务。

二、对变量相同、行数不同、不同格式的数据文件进行导入测试。

测试平台：处理器I7 7700K 、内存16GB ，所有测试均使用同一台电脑。

一、对变量相同、行数不同的数据集分别执行5种不同分析任务

对变量相同，不同规模的数据集进行5种不同的分析，所用时间如下表：

从上面的表格可知：

1、对于小数据集、不管执行什么分析，能立即得到分析结果；

2、对千万级别的数据执行一些常规分析，几十秒内可完成；

3、对于亿级别的数据，可执行一些简单分析，执行复杂分析的时间太长。

二、对变量相同、行数不同、不同格式的数据文件进行导入测试。

对于非SPSS格式的数据文件，如果文件太大，读取将会非常耗时。这里对一批不同格式的数据文件进行导入测试，所用时间如下表：

从上面的表格可知：

1、读取SPSS文件的速度最快，读取Stata文件也很快，读取Excel文件很慢，读取CSV文件的速度尚可接受。

2、需要处理和分析的数据集通常不是SPSS格式的文件，建议以CSV格式存储这些待处理的文件。

注意，以上测试中，数据集中有11个变量，如果变量数多于11个，那么相同行数的数据集，在部分测试中所需的时间可能会更长。

综上，在SPSS中处理千万级别及以下的数据集是完全没问题的，且执行时间很短；这已经满足了绝大多数人的分析需求。如果数据集规模达到了亿级别，SPSS中执行复杂分析所花费的时间相对较长，不愿意等的话，建议使用其它性能更强的分析软件。

SPSS中可以快速导入亿级别的SPSS格式文件，但我们获取的很多数据集最初并不是以SPSS格式存储的，建议先在R语言等编程软件中将数据转换为SPSS格式再导入SPSS软件中，或者先以CSV格式存储数据，然后将其导入到SPSS中，再转存为SPSS格式，后续直接使用SPSS格式的文件，避免重复导入这些耗费时间的格式的文件。

发表于: 2019-10-212019-10-21 10:50:04
原文链接：https://kuaibao.qq.com/s/20191021A076VX00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

SPSS能够处理多大规模的数据集？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐