问无法将unicode .csv读入R
EN

Stack Overflow用户

提问于 2013-05-30 22:16:52

回答 3查看 25.9K关注 0票数 26

我有一个.csv文件，其中包含以下数据：

"Ա","Բ"
1,10
2,20

我不能将其读入R，因此列名的显示方式与文件中的列名相同。

d <- read.csv("./Data/1.csv", fileEncoding="UTF-8")
head(d)

生成以下内容：

> d <- read.csv("./Data/1.csv", fileEncoding="UTF-8")
Warning messages:
1: In read.table(file = file, header = header, sep = sep, quote = quote,  :
  invalid input found on input connection './Data/1.csv'
2: In read.table(file = file, header = header, sep = sep, quote = quote,  :
  incomplete final line found by readTableHeader on './Data/1.csv'
> head(d)
[1] X.
<0 rows> (or 0-length row.names)

同时，在不指定fileEncoding的情况下执行相同的操作会产生以下结果：

> d <- read.csv("./Data/1.csv")
> head(d)
  Ô. Ô²
1  1 10
2  2 20

当我运行" file“实用程序来找出文件的编码时，它告诉我它是UTF-8：

Data\1.csv: UTF-8 Unicode text, with CRLF line terminators

我使用的是RStudio，Windows7，R版本2.15.2，32位。

提前谢谢。

windows

csv

utf-8

read.table

回答 3

Stack Overflow用户

发布于 2015-02-12 02:29:41

我在这里对同样的问题写了一个更长的答案：R on Windows: character encoding hell。

快速回答，使用参数编码而不是fileEncoding应该可以解决您的第一个问题。您可能无法在RStudio的控制台或表视图中读取它，但您可以在公式中使用它。

d <- read.csv("./Data/1.csv", encoding="UTF-8")
head(d)

将表保存为UTF-8文件后：

> test2 <- read.csv("test2.csv", header = FALSE, sep = ",", quote = "\"", dec = ".", fill = TRUE, comment.char = "", encoding = "UTF-8")
Warning message:
In read.table(file = file, header = header, sep = sep, quote = quote,  :
  incomplete final line found by readTableHeader on 'test2.csv'

这显示了它在console和RStudio视图中的外观

> test2
        V1       V2
1 <U+0531> <U+0532>
2        1       10
3        2       20

然而，重要的是，您能够在R中对此进行操作。因此，在我的示例中，可以看到脚本窗口输入Ա具有UTF-8编码，并且grep可以在您的表中正确地找到这种编码。

> Encoding("Ա")
[1] "UTF-8"
> grep("Ա", as.character(test2[1,1]))
[1] 1

您可能需要找到适用于您的设置的适当编码变体，或者可能更改它们。不幸的是，我不确定它是在哪里完成的。

您可能无法让它在所有阶段都美观，但绝对可以让它在Windows7环境中工作。

票数 13

Stack Overflow用户

发布于 2013-09-21 00:31:04

我尝试了两种方法来复制您的问题。

我将上面的字符复制到RStudio中，并使用以下代码将其保存到csv中：

write.csv(c("Ա","Բ",
             1,10,
             2,20), "test.csv")

df <- read.csv("test.csv")

这样做效果很好。

然后我想，也许R是作弊，当我用R保存到CSV时？所以我只是将字符粘贴到一个文本文件中，并将其另存为CSV。这种方法也没有问题。

这是我的会话信息：

sessionInfo()
R version 3.0.1 (2013-05-16)
Platform: x86_64-pc-linux-gnu (64-bit)

locale:
[1] LC_CTYPE=en_CA.UTF-8       LC_NUMERIC=C               LC_TIME=en_CA.UTF-8       
[4] LC_COLLATE=en_CA.UTF-8     LC_MONETARY=en_CA.UTF-8    LC_MESSAGES=en_CA.UTF-8   
[7] LC_PAPER=C                 LC_NAME=C                  LC_ADDRESS=C              
[10] LC_TELEPHONE=C             LC_MEASUREMENT=en_CA.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats4    grid      stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] party_1.0-9       modeltools_0.2-21 strucchange_1.4-7 sandwich_2.2-10   zoo_1.7-10       
[6] GGally_0.4.4      reshape_0.8.4     plyr_1.8          ggplot2_0.9.3.1  

loaded via a namespace (and not attached):
[1] coin_1.0-23        colorspace_1.2-2   dichromat_2.0-0    digest_0.6.3      
[5] gtable_0.1.2       labeling_0.2       lattice_0.20-23    MASS_7.3-29       
[9] munsell_0.4.2      mvtnorm_0.9-9995   proto_0.3-10       RColorBrewer_1.0-5
[13] reshape2_1.2.2     scales_0.2.3       splines_3.0.1      stringr_0.6.2

票数 0

Stack Overflow用户

发布于 2014-08-21 19:35:41

我也遇到了同样的问题，发现文件已经损坏了。

我用OpenOffice打开文件，用"UTF8“字符集(你需要点击编辑过滤器设置框)保存它，然后用read.csv()(没有编码或文件编码选项)导入它，它工作得很好。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16838613

复制

相似问题

问无法将unicode .csv读入R
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法将unicode .csv读入REN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法将unicode .csv读入R
EN