使用Encoding()和tokens()时UTF-8编码中断

文章/答案/技术大牛

发布

1回答

、、、

我在编码方面遇到了非常奇怪的问题。当我运行Encoding(txt) <- "UTF-8"时，编码被破坏，字符串看起来像“\xe7\xfe\xe0\xfe\xf2”。txt <- c("привет", "пока")Encoding(txt) <- "<em

浏览 13提问于2021-03-09得票数 1

1回答

Python潜在的狄利克雷分配Stopped_tokens错误

、、

我的代码基于以下位置的代码：ReadWrite.py:59: UnicodeWarning: Unicode相等比较无法将两个参数都转换为Unicode -如果不是en_stop中的i，则将它们解释为标记中的i的不相等stopped_tokens =i 我想知道以前是否有人遇到过这个问题，或者是否有人知道如何修复这个错误

浏览 11提问于2017-01-31得票数 0

1回答

中世纪字符的UnicodeDecodeError

、、、、

这些文本使用中世纪的字符，如约格(ȝ)，荆棘()和eth ()。当我使用标准unicode (utf-8)编码运行程序(粘贴在下面)时，我得到以下错误： Traceback (most recent call last): File "me_scraper_redux2.py", line 11, in <module> tokens = nltk.word_tokenize( open( "ME_Corpus_sm

浏览 12提问于2015-05-12得票数 1

回答已采纳

1回答

Perl -文件编码和字比较

、、

问题是我不确定文件的编码格式。我从file命令中得到了这样的信息：我的linux终端在UTF-8中，它显示了一些词的正确内容，而另一些则没有condi<E3>ajuda, mas não resolvepedagógico são fenómenos 你可以看到，第三行和第五行正确识别带有重音和特殊字符的单词其他行的正确输出应该是:co

浏览 1提问于2011-05-05得票数 5

回答已采纳

1回答

将`0.5‘字符串转换为R中的菱形问号符号(�)

、

我一直在使用googlesheets软件包上传和下载数据从网页。以前，它一直在下载带有图标�的非ASCII符号的字符串。现在，由于没有明显的原因，它已经开始使用以下字符串下载它们：ï¿½。

浏览 2提问于2018-01-15得票数 2

回答已采纳

4回答

在python中打印unicode字符串，与环境无关

、、、

要求是它必须在Python2.7和3.x中运行，在任何平台上，并且使用任何终端设置和环境变量(例如LANG=C或LANG=en_US.UTF-8)。例如，当环境为“LANG=enUS.UTF-8”时，可以执行以下操作：print(x)UnicodeEncodeErrorunicode编码，则无法正确显示unicode字符： print(x.encode('utf-8</

浏览 0提问于2014-12-08得票数 9

2回答

如何将UTF-8与tomcat结合使用

、、、

Tomcat没有正确编码包含unicode字符的字符串文字。这个问题发生在Linux服务器上，而不是在我的开发机器(Windows)上。它只影响字符串文本(不影响从DB或文件读取的字符串！)。(server.xml).I使用setCharacterEncoding().I签入堆栈跟踪(没有可能设置编码的筛选器)。 resp.setCharac

浏览 6提问于2012-03-22得票数 7

回答已采纳

2回答

如何用ruby 1.9转换字符编码

、、

该服务返回带有unicode字符的字符串:在Mac上学习目标\xE2\x80\x93C(学习系列)REXML::ParseException: #<Encoding::CompatibilityError: incompatible encoding regexp match (UTF-8 regexp with ASCII-8BIT string)> ...

浏览 12提问于2010-07-01得票数 10

回答已采纳

2回答

如果以utf-8编码打开文件，则0x85 windows 1252中断行。

、、、

我有一个旧格式的文件，从70年代使用在公司之家(英国公司注册)。有一个奇怪的角色正在打破一条线。ALEXANDER<GROSVENOR<<<<MAYFIELD <85>3<41 PLANTATION ROAD<THE PEAK<<HONG KONG<BANK EXECUTIVE<BRITISH<<with codecs.open(filep

浏览 2提问于2019-11-06得票数 0

回答已采纳

2回答

Rails 3-如何处理PG错误不完整的多字节字符

、、、

Rails 3.2应用程序(Ruby1.9.2)中，我得到了以下错误不完全多字节字符我还得到了"name"=>"p\xEDa "的UTF-8中的无效字节序列。

浏览 0提问于2012-02-06得票数 2

回答已采纳

2回答

Spring Boot:如何将JSPF文件中的编码设置为UTF-8

、、、

我正在为jspf文件的编码而奋斗。当我在jspf中插入一个德语umlaut (例如“”)时，浏览器中的输出就会中断(一些不可读字符)。我从eclipse内部启动Spring，jspf文件本身被编码为UTF-8。application.propertiesInsert 在application.propertiesUse -Dfile.encoding=UTF-8中插入spring.ht

浏览 3提问于2022-09-21得票数 0

4回答

使用Ruby1.8和1.9中相同的代码处理字符串编码

、、、

我有一个，它使用了一群使用不同Ruby解释器的人，它包括了归结为以下代码的内容：doc = REXML::Document.new(res).rootres的内容总是UTF-8，这在Ruby1.8中工作得很好，但是如果响应不是纯ASCII，并且用户的默认编码不是UTF-8，它就会在Ruby1.9下崩溃。现在，如果我想仅在Ruby1.9上完成这项工作，我只需将res.force_encoding('utf-8</em

浏览 5提问于2011-03-22得票数 1

回答已采纳

2回答

在Python3中读取UTF-8编码文件和文本文件

、、

好的，那么python3和unicode。我知道所有python3字符串实际上都是unicode字符串，所有python3代码都存储为utf-8。但是python3如何读取文本文件呢？它是否假定它们是在utf-8中编码的？读取文本文件时，是否需要调用解码器(utf-8)？熊猫read_csv()和to_csv()怎么办？

浏览 1提问于2017-12-22得票数 9

1回答

使用JSON.parse的意外编码错误

、、

但是，当我将代码推送到运行CentOS的服务器时，我总是得到以下内容："\xE9" on US-ASCII (Encoding::InvalidByteSequenceError)λ file data.jsonCentOS：data.json: UTF-8<

浏览 1提问于2014-07-19得票数 2

回答已采纳

1回答

在R的情节中，韩语单词被打破了

、、

我在工具菜单的RStudio中设置编码为UTF-8，并使用read("filename"，encoding=" UTF-8 ")将txt文件读为UTF-8。但是韩语单词在情节窗口中断掉了，我看不懂。

浏览 2提问于2015-09-13得票数 0

2回答

使用mvn构建时的编码问题

、、、

JAXB正在读取一个以UTF-8编码的XML文件，其中包含特殊字符。java -classpath /usr/share=UTF-8 org.codehaus.plexus.classwo

浏览 3提问于2012-02-02得票数 3

回答已采纳

2回答

Python3.x关于编码

、、、

# -*- coding: utf-8 -*- print(decoded)UnicodeEncodeError：'cp949‘编解码器无法

浏览 1提问于2016-11-03得票数 2

回答已采纳

2回答

如何让我的Python解析下面的文本？

、、

我有一个文本样本：我正在尝试使用以下内容进行解析 entries = maltese.readlines() tokens =entry.replace('"', '').replace(",", "&q

浏览 4提问于2013-06-25得票数 1

回答已采纳

1回答

与ARGF#set_encoding混淆

、、

说： p RUBY_VERSIONARGF.set_encoding('ascii')

浏览 5提问于2013-03-27得票数 2

回答已采纳

点击加载更多