我正在写一个应用程序,它接受一些大量的文本作为输入,可以是任何字符编码,我想把它全部保存在UTF-8中。我不会接收或不能信任随数据一起定义的字符编码(如果有的话)。我曾经使用Pythons库chardet来检测原始字符编码,但最近遇到了一些问题,我注意到它不支持斯堪的纳维亚编码(例如iso-8859-1)。除此之外,它需要大量的时间/CPU/mem才能得到结果。对于2MB的文本文件,~40秒。file -bi na
我刚刚开始使用git和heroku,我想让我的文件在heroku 24/7全天候在线,但是当上传文件到heroku(git推送heroku master)时,这是显示的
aiohttp 3.7.3 hasrequirement chardet<4.0,>=2.0, but you'll have chardet 4.0.0 which is incompatible.我真的认为这是一个python版本问题,所以当我尝试使用runtime.txt并在页面上将python版本设置为其中一个支持<
我是Python的初学者(我正在使用3.4)。这是我代码的相关部分。'charmap' codec can't decode byte 0x9d in position 82273: character maps to <undefined>import codecs
f = codecs.open("file.txt",