前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BeautifulSoup4 中文乱码

BeautifulSoup4 中文乱码

作者头像
obaby
发布2023-02-22 10:59:34
4300
发布2023-02-22 10:59:34
举报
文章被收录于专栏:obaby@mars

BeautifulSoup4解析页面的时候发现有一部分内容是乱码,刚开始还以为是pycharm的问题,后来发现可能问题不是出在pycharm上,因为普通的print打印的中文是没有问题的。测试代码如下:

代码语言:javascript
复制
def proxy_get(url):
    if is_use_proxy:
        socks.set_default_proxy(socks.SOCKS5, PROXY_HOST, PROXY_PORT)
        socket.socket = socks.socksocket
    req = requests.get(url, headers=HEADERS)
    return req.text


def get_sub_pages_test(url):
    '''
    http://www.meitulu.cn/t/shishen/
    :param url:
    :return:
    '''
    bs = BeautifulSoup(proxy_get(url), "html.parser")
    boxes = bs.find('div', class_='boxs')
    lis = boxes.find_all('li')
    log_text('PAGE', '开始分析页面链接', is_begin=True)
    for l in lis:
        p = l.find('p', class_='p_title')
        print( p.text)

后来想到可能是网络请求编码导致的,那么只要修改请求代码添加编码信息即可。

代码语言:javascript
复制
def proxy_get(url):
    if is_use_proxy:
        socks.set_default_proxy(socks.SOCKS5, PROXY_HOST, PROXY_PORT)
        socket.socket = socks.socksocket
    req = requests.get(url, headers=HEADERS)
    req.encoding = 'utf-8' #设置编码格式
    return req.text

此时再去请求就ok了。

☆文章版权声明☆

* 网站名称:obaby@mars

* 网址:https://h4ck.org.cn/

* 本文标题: 《BeautifulSoup4 中文乱码》

* 本文链接:https://h4ck.org.cn/2021/06/beautifulsoup4-%e4%b8%ad%e6%96%87%e4%b9%b1%e7%a0%81/

* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


分享文章:

相关文章:

  1. Python requests socks代理
  2. Windows git log 中文乱码
  3. Mac shell(fish) javac 中文乱码
  4. missdica.com爬虫【美女图片爬虫】
  5. 韩国美女模特爬虫
  6. 妹子图爬虫
  7. Ganlinmu Spider
  8. 获取网页中所有的文字
  9. 如何绕过微信图片的防盗链
  10. 基于ffmpeg的m3u8下载[调整key替换逻辑,更新解析逻辑]
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021年6月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 相关文章:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档