文章/答案/技术大牛

发布

社区首页 >问答首页 >HttpGetText()，自动检测字符集，并将源代码转换为UTF8

问HttpGetText()，自动检测字符集，并将源代码转换为UTF8
EN

Stack Overflow用户

提问于 2011-03-31 21:04:53

回答 2查看 1.5K关注 0票数 0

我正在使用HttpGetText和Synapse for Delphi7Professional来获取网页的源代码--不过请随意推荐任何组件和代码。

这样做的目的是通过将非ASCII字符“统一”到单个字符集来节省一些时间，这样我就可以用相同的Delphi代码来处理它。

所以我正在寻找类似于“全选并转换为Notepad++中没有物料清单的UTF”的东西，如果你明白我的意思的话。ANSI而不是UTF8也可以。

网页被编码成3个字符集: UTF8，"ISO-8859-1=Win 1252=ANSI“和没有字符集规范的直接HTML4。内容中的Å编码类型字符。

如果我需要编写一个执行转换的PHP页面，也没问题。什么是最少的代码/时间。

delphi

character-encoding

synapse

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-06-13 15:09:18

相反，我在使用GpTextStream检索HTML后直接进行了反向转换。使文档符合ISO-8859-1使它们可以直接使用Delphi处理，这节省了相当多的代码更改。在输出时，所有数据都转换为UTF-8 :)

下面是一些代码。也许不是最漂亮的解决方案，但它肯定能在更短的时间内完成工作。请注意，这是用于反向转换的。

procedure UTF8FileTo88591(fileName: string);
const bufsize=1024*1024;
var
fs1,fs2: TFileStream;
ts1,ts2: TGpTextStream;
buf:PChar;
siz:integer;
    procedure LG2(ss:string);
    begin
        //dont log for now.
    end;

begin
    fs1 := TFileStream.Create(fileName,fmOpenRead);
    fs2 := TFileStream.Create(fileName+'_ISO88591.txt',fmCreate);
    //compatible enough for my purposes with default 'Windows/Notepad' CP 1252 ANSI and Swe ANSI codepage, Latin1 etc.
    //also works for ASCII sources with htmlencoded accent chars, naturally
    try
      LG2('Files opened OK.');
      GetMem(buf,bufsize);
      ts1 := TGpTextStream.Create(fs1,tsaccRead,[],CP_UTF8);
      ts2 := TGpTextStream.Create(fs2,tsaccWrite,[],ISO_8859_1);
      try
        siz:=ts1.Read(buf^,bufsize);
        LG2(inttostr(siz)+' bytes read.');
        if siz>0 then ts2.Write(buf^,siz);
      finally
        LG2('Bytes read and written OK.');
      FreeAndNil(ts1);FreeAndNil(ts2);end;
    finally FreeAndNil(fs1);FreeAndNil(fs2);FreeMem(buf);
        LG2('Everything freed OK.');
    end;
end; // UTF8FileTo88591

票数 0

Stack Overflow用户

发布于 2011-04-01 06:13:18

当你检索一个网页时，它的HTML头(有时是Content-Type内部的一个<meta>标签)会告诉你数据使用的是哪个字符集。您可以使用该字符集将数据解码为Unicode，然后可以将Unicode编码为处理所需的任何内容。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5500293

复制

相似问题

问HttpGetText()，自动检测字符集，并将源代码转换为UTF8
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HttpGetText()，自动检测字符集，并将源代码转换为UTF8EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HttpGetText()，自动检测字符集，并将源代码转换为UTF8
EN