问为什么，而不是如何: Stata错误地识别了var中具有混合(string+numeric)值的大型数据集上的var类型
EN

Stack Overflow用户

提问于 2015-07-26 20:03:17

回答 1查看 168关注 0票数 0

我正在阅读一个500万的观察管道分隔的文本文件。一列的前250,000个值为数字，其余为字符串。下面的代码导入了前250,000个数值，将变量声明为数值(long)，并将字符串值视为缺失。

import delimited "mixed_types.txt", delimiter("|")

解决方案:将所有vars导入为字符串，然后解压缩：

import delimited "mixed_types.txt", delimiter("|") stringcols(_all)
destring, replace

我的问题是，为什么？导入分隔状态的帮助文件，“导入分隔符将检查该文件是否由标签或逗号根据第一行数据分隔。”是否为分配var类型遵循了这条规则？

回答已采纳

发布于 2015-07-26 22:29:47

这不是预期的行为。

“导入分隔”具有以下修补程序：当导入文本文件中的变量的行号为5,000或更高时，当字符串数据不存在时，错误地为该变量选择了数字数据类型而不是字符串数据类型。这个已经修好了。

你需要update。见help update。

(运行help whatsnew可以访问相同的信息。更新为Stata 14。)

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31641372

复制

相似问题

问为什么，而不是如何: Stata错误地识别了var中具有混合(string+numeric)值的大型数据集上的var类型EN