我正在使用一个网络爬虫(用Scala编写)从不同的网站获取一些内容,我必须从JavaScript片段中解码一个unicode符号
Capitali%20d%u2019Europa
必须被解码为
Capitali d’Europa
但我找不到合适的工具去做。
发布于 2014-08-02 22:16:07
您可以为此使用正则表达式。
def unicodeDecode(str: String): String = {
val parts = """%u\d{4}|%\d\d|[^%]+""".r.findAllIn(str).map(s =>
if(s.startsWith("%")) {
Integer.parseInt(
(if(s.startsWith("%u")) s.substring(2, s.size)
else s.substring(1)), 16).toChar.toString
} else s)
parts.mkString
}
https://stackoverflow.com/questions/25099446
复制相似问题