我正在使用Ruby的RSS Library来解析RSS提要,但是当RSS提要中的项目符号字符作为�出现时,我偶尔会遇到错误。
require 'rss'
rss = RSS::Parser.parse('rss_url_here', false)这导致了
#<ArgumentError: invalid byte sequence in UTF-8>由于�字符。如何删除�字符?
更新:
我试过使用
require 'net/http'
require 'rss'
uri = URI('https://newyork.craigslist.org/search/jjj?query=graphic%20design&s=100&sort=date&format=rss')
json = Net::HTTP.get(uri)
json.force_encoding('CP1252')
json.force_encoding('utf-8')
rss = RSS::Parser.parse(json, false)仍然会得到
ArgumentError: invalid byte sequence in UTF-8发布于 2015-08-30 01:00:57
我想知道,阅读我在评论中提到的两个函数的文档并区分force_encoding和encode是否有那么难。
require 'net/http'
require 'rss'
uri = URI('https://newyork.craigslist.org/search/jjj?query=graphic%20design&s=100&sort=date&format=rss')
text = Net::HTTP.get(uri)
rss = RSS::Parser.parse(text.force_encoding('CP1252').encode('utf-8'), false)
#⇒ #<RSS::RDF:0x000000053791a0 .....https://stackoverflow.com/questions/32283076
复制相似问题