首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >perl6格式错误的UTF-8导致程序崩溃

perl6格式错误的UTF-8导致程序崩溃
EN

Stack Overflow用户
提问于 2018-06-04 14:28:18
回答 1查看 241关注 0票数 5

我正在尝试下载一个网页;然后使用regex对其进行分析;然后获取regex发现的文件。我有两个问题:

(1)我使用wget下载网页和文件,使用下面这行代码

代码语言:javascript
复制
my $webPage = "onePage";
my $result = run <<wget -O $webPage $aSite>>, :out, :err;

其中,$webPagewget的输出文件。问:有没有等同于wget的perl6?我使用了perl6网站上的模块URI::FetchFile;它获取了一些文件,但无法获取网页。

(2) wget下载的$webPage有时包含格式错误的UTF-8字符,导致我的程序崩溃。当我这样做的时候

代码语言:javascript
复制
cat onePage

在shell中,这些格式错误的UTF-8字符显示为blob,此命令会导致与我的程序相同的错误:

代码语言:javascript
复制
cat onePage | perl6 -ne '.say;'

而perl6的错误输出是

代码语言:javascript
复制
Malformed UTF-8
  in block <unit> at -e line 1

在终端或shell上,格式错误的UTF-8字符之一显示为blob,如下所示:

代码语言:javascript
复制
h�lt

如果我尝试删除非打印字符,那么结果是我错过了大量指向文件的链接:

代码语言:javascript
复制
$tmpLine ~~ s/<-[print]>//; # this causes my program to miss many files

如何最好地处理这些格式错误的UTF-8字符,或者任何格式错误的unicodes,甚至是格式错误的控制字符?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-04 15:11:30

有没有等同于wget的perl6?

有几个。HTTP::Agent现在被认为是更新的,但您也可以使用LWP::Simple

如何最好地处理这些格式错误的UTF-8字符或任何格式错误的unicodes,甚至是格式错误的控制字符?

您可能希望尝试UTF8-C8编码。但是,如果您直接从perl6程序获取页面,这可能不是问题。

然而,崩溃是完全不同的事情。最好的方法是创建一个Rakudo issue

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50674498

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档