使用混合字符编码读取R中的文件

、、

我正在尝试从大多数使用UTF-8编码(并声明<meta charset="utf-8">)但也有一些其他编码(我认为是Windows1252或ISO8859-1)编码的HTML页面中读取表格到R中。Here's an example.我要把所有的东西正确地解码成R数据帧。XML::readHTMLTable接受encoding参数，但似乎不允许尝试多种编码。

浏览 20提问于2019-06-03得票数 14

回答已采纳

2回答

PC/MAC/Ubuntu中的非英语字符CSV编码错误

、、、

我的R在打开包含简体中文字符的csv文件时遇到了问题。我相信，这些数据被编码为GBK。我有三台具有不同语言和操作系统的计算机，在打开相同的中文csv文件时，它有混合结果。(1)Windows+English OS+English R and R studio：无法读取我的csv，即使我将它编码为UTF8、GBK，您可以将它命名为

浏览 6提问于2016-07-12得票数 1

回答已采纳

3回答

使用java.util.Scanner读取不同字符编码的文件

、、、

我使用Java读取文件列表。其中一些有不同的编码，用ANSI而不是UTF-8。java.util.Scanner无法读取这些文件并获取空的输出字符串。InputStreamReader isr = new InputStreamReader(fis);我不确定在ANSI的情况下如何更改字符编码UTF-8和ANS

浏览 0提问于2018-11-06得票数 5

1回答

ANSI应用与越南编码

、、

我已将系统的代码页更改为俄文，在上解释了这一点 showmessage(当我用越南语而不是俄语重做所有四个步骤时，用显示信息显示的<

浏览 1提问于2012-06-29得票数 0

回答已采纳

1回答

在Java中将UTF-8转换为字符串

、、、、

我在使用UTF-8字符集时遇到了一点问题。我有一个UTF-8编码的文件，我想要加载和分析。我使用BufferedReader逐行读取文件。BufferedReader buffReader = new BufferedReader(new InputStreamReader我的问题是，Java语言中的normals<em

浏览 2提问于2011-05-01得票数 0

1回答

如何读取使用未知编码(FDF)的文件

、

我有文件。这是一个纯文本文件。，我正试图找到一种方法，简单地将这个文件读入R中，并以最初编码的方式再次将它写回。我的动机是能够可靠地再现文件格式。但是，我很难破解这个文件是如何被编码的。问题就在第9行，在第9行中，它应该是这样读的在内心深处，我知道这些字符实际上是在这个<

浏览 1提问于2019-05-14得票数 2

回答已采纳

2回答

如何在Python中将rb模式获得的二进制类型字符串转换为正常类型？

、、、、

我有一个包含如下二进制类型字符串的列表，它是通过在rb模式下读取文本文件获得的(因为r无法读取文件，因为可能是各种编码中的混合字符)：- new_list = [b'Vanessa Skarski\'s', b'Hornslet wind-turbine collapse\r\nFrom Wikipedia

浏览 0提问于2019-07-19得票数 0

回答已采纳

3回答

Python不可复制的UnicodeDecodeError

、、、

我试图使用Python中的以下命令序列替换Word文件中的子字符串。代码本身工作非常好--即使使用完全相同的Word文件，但是当将其嵌入到更大规模的项目结构中时，它会在这个位置抛出一个错误。附带注意:我知道是什么导致了错误，它是Word文件中的一个德语“ü”，但是它是必需的，如果代码独立工作，删除它似乎不是正确

浏览 1提问于2018-04-20得票数 1

回答已采纳

2回答

从二进制文件中读取UTF-8字符的简单方法？

、、

这是我的问题:我必须读取“二进制”文件，即具有不同“记录”大小的文件，这些文件可能包含二进制数据，以及UTF-8编码的文本字段。从输入文件读取给定数量的字节很简单，但我想知道是否有函数可以轻松地从文件中读取给定数量的字符(而不是字节)？比如，如果我知道我需要读取一个10个字符

浏览 1提问于2021-07-08得票数 0

回答已采纳

1回答

String类的Java1.6方法并不适用于所有字符

、、、、

我有一个字符串，它由诸如“\”、“、”等字组成。在用Java1.6编译类之前，像myString.split("ý");或myString.contains("ý");这样的方法可以工作。在使用命令行编译类之后，这些方法不能处理这些字符。我必须使用Java1.6。有什么办法可以避免这个问题吗？

浏览 1提问于2016-01-07得票数 1

回答已采纳

2回答

直接访问文件中的数据

如何“直接”访问辅助存储设备中文件中第200到300个字符之间的数据？

浏览 0提问于2010-12-28得票数 0

回答已采纳

4回答

我目前正在开发一个Python脚本，该脚本获取日志文件列表(来自搜索引擎)，并生成一个包含所有查询的文件，以供以后分析。脚本的另一个特点是它删除了最常见的单词，我也实现了，但是我遇到了一个似乎无法克服的问题。只要查询不包含特殊字符，移除单词就会按预期工作。由于搜索日志是丹麦语，字符和字符将定期出现。在搜索主题时，我现在意识到我需要将这些代码编码到UTF-8中，在获得查询时我正在这样做： tmp =

浏览 1提问于2012-12-20得票数 2

回答已采纳

3回答

Scala文件读取添加空格

、

我正在使用scala读取一个文件 var x:String="" x += line + "\n" x这对于scala文件来说很好用。但是在txt文件中，它会在每个字符之间添加空格。例如。我读入了

浏览 0提问于2012-08-07得票数 0

3回答

R中的字符编码

、

我正在尝试通过read.csv2()将Sql Server Management Studio生成并编码为UTF-8 (我在保存时选择了该选项)的csv文件读取到R版本3.0.1 (x64)中。我无法让R正确显示特殊字符。如果我设置了fileEncoding="UTF-8-BOM"，那么导入就会在我有?的那一行停止。但是，当在Notepad++中打开文件时，使用</em

浏览 2提问于2013-08-07得票数 3

回答已采纳

2回答

在读取模式下读取二进制文件Python 3-在Windows上传递，在Linux上失败

、、、、

-36)]'with open(temp_file, 'wb') as fh:UnicodeDecodeError: 'utf-8&#

浏览 1提问于2019-04-05得票数 2

回答已采纳

1回答

SAS特殊字符抛出输入的列对齐

、、、

我正在将一个.dat数据集输入到sas中，在练习教学中使用informat。这是我到目前为止所拥有的。.;这适用于每一行，但包含特殊/国际字符的行除外。使用@指针和informat值似乎可以显示特殊字符正在抛出列对齐，这是否可能(一个特殊字符实际上占用了2位/空格，即使它打印为单个字符。有简单的解决办法吗？

浏览 3提问于2015-10-29得票数 1

回答已采纳

1回答

Python :读取和执行SQL文件时出错

、、、、

我试图使用sqlalchemy在Python中红色并执行SQL文件。应该很简单对吧？我不确定这是文件编码错误还是SQLAlchemy错误。理想情况下，这应该很简单。select * into temp from t0"conn.execute(query)编辑2：作为参考，这里有一个指向文件toy_example.sql的链接。

浏览 3提问于2020-03-12得票数 1

回答已采纳

1回答

使用utf-8 4字节字符读取ruby文件

、、、

我有一个包含utf-8字符的csv文件，例如- Łódź。当我尝试使用以下命令读取文件时它没有正确地编码字符。这适用于其他utf-8字符，如Göteborg，但不适用于所有字符。如何读取可以对所有UTF-8字符进行编码的

浏览 1提问于2014-02-01得票数 0

1回答

如何让R读取CSV的实际值而不是指数格式

、

我正在尝试读取一个银行文件，其中一列的数字与名称持有者混合在一起，例如，该列可能具有： 2.10731E+152.10802E+15 etc. 2.10731E+15类型文件的实际值是: 2107310000000000，但是，因为存在一些字符串，所以R将列作为字符读取，从而仅将值显示为2.10731E+15。有没有办法让R在使用read.csv或rea

浏览 8提问于2021-10-27得票数 1

回答已采纳

3回答

修正字符串中的混合编码

、

我有一个包含以下字符串的文件：如果在Notepad++中查看。在十六进制视图中，字符串如下所示：如果我用Java读取文件，字符串如下所示：如何在Java中获得与Notepad++相同的编码？

浏览 6提问于2020-02-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PC/MAC/Ubuntu中的非英语字符CSV编码错误

使用java.util.Scanner读取不同字符编码的文件

ANSI应用与越南编码

在Java中将UTF-8转换为字符串

如何读取使用未知编码(FDF)的文件

如何在Python中将rb模式获得的二进制类型字符串转换为正常类型？

Python不可复制的UnicodeDecodeError

从二进制文件中读取UTF-8字符的简单方法？

String类的Java1.6方法并不适用于所有字符

直接访问文件中的数据

Python中的国际字符

Scala文件读取添加空格

R中的字符编码

在读取模式下读取二进制文件Python 3-在Windows上传递，在Linux上失败

SAS特殊字符抛出输入的列对齐

Python :读取和执行SQL文件时出错

使用utf-8 4字节字符读取ruby文件

如何让R读取CSV的实际值而不是指数格式

修正字符串中的混合编码

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐