网络爬虫之Url含有中文如何转码

一:背景

  • 今天在使用Jsoup对一个网站进行数据爬取,发现爬取内容为该搜索结果是0条,请求头啥的都填好,利用Chrome开发者工具发现请求Url路径不含中文,抱着试一试的态度,我复制此段非中文参数进行请求,惊喜发现爬取结果正确!

二:解决方法

手动对中文参数进行编码

String data = java.net.URLEncoder.encode("中文参数", "UTF-8");

另外与之对应的解码为

String data = java.net.URLDecoder.decode(data, "UTF-8");

Jsoup爬虫案列: http://blog.csdn.net/yueshutong123/article/details/78939700

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏林冠宏的技术文章

关于Android中为什么主线程不会因为Looper.loop()里的死循环卡死?引发的思考,事实可能不是一个 epoll 那么 简单。

( 转载请务必标明出处:https://cloud.tencent.com/developer/user/1148436/activities) 前序 本文将...

3395
来自专栏大魏分享(微信公众号:david-share)

从PowerVM,KVM到Docker:存储池的配置与调优---第一篇终结(第3子篇)

VIOC 上的 VSCSI 性能调优 在本实验的 VIOC 中,一个磁盘对应 4 条 VSCSI 路径。查看磁盘默认的属性 ; # lsattr -El hdi...

5286
来自专栏点滴积累

Cesium中Clock控件及时间序列瓦片动态加载

前言 前面已经写了两篇博客介绍Cesium,一篇整体上简单介绍了Cesium如何上手,还有一篇介绍了如何将Cesium与分布式地理信息处理框架Geotrelli...

4724
来自专栏工科狗和生物喵

FreeRTOS-Qemu 实现三任务同步通信机制以及API信息

---- 1. 本次作业的考察要点: 作业地址:https://github.com/HustWolfzzb/STM32F429DiscoveryFreeRTO...

1.1K6
来自专栏Python学习心得

​Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

原文链接:https://www.fkomm.cn/article/2018/8/7/32.html

1190
来自专栏Java后端技术栈

【面试题】2018年最全Java面试通关秘籍第三套!

注:本文是从众多面试者的面试经验中整理而来,其中不少是本人出的一些题目,网络资源众多,如有雷同,纯属巧合!禁止一切形式的碰瓷行为!未经允许禁止一切形式的转载和复...

1331
来自专栏FreeBuf

技术分享:杂谈如何绕过WAF(Web应用防火墙)

0x01开场白 这个议题呢,主要是教大家一个思路,而不是把现成准备好的代码放给大家。 可能在大家眼中WAF(Web应用防火墙)就是“不要脸”的代名词。如果没有他...

2736
来自专栏nimomeng的自我进阶

OC优化指南

a) Reusing UITableViewCell:利用cellWithTableView:cellIdentifier:nibName: b)...

1521
来自专栏前端

使用jOrgChart插件实现组织架构图的展示

(3)使用jOrgChart插件,根据返回的数据将其子节点加入到相应的<li></li>中。

9685
来自专栏小尘哥的专栏

小程序(3):授权登录

判断是否授权,如果没有,则显示授权按钮。注意上面的open-type="getUserInfo",这个会自动调起授权框。看一下js

3034

扫码关注云+社区

领取腾讯云代金券