首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

这段网上的文字,我为什么爬下来是乱码?

非知之难,行之为难;非行之难,终之斯难。

大家好,我是皮皮。

一、前言

前几天在Python白银交流群【上海新年人】问了一个Python网络爬虫文字乱码的问题。代码如下:

url = 'https://www.fwsir.com/Article/html/Article_20230101085126_2180223.html'

heades = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

r = requests.get(url=url,headers=heades).text

r.encode('utf-8')

soup = BeautifulSoup(r,'html.parser')

s1 = soup.select('div.content>p')

for i in s1:

print(i.get_text())

二、实现过程

这个问题其实很常见,之前的文章里边也有写过多次了,这里【甯同学】给了一个提示:如下所示:

【磐奚鸟】给出了实战截图,上述代码确实好使。

后来【瑜亮老师】也补充了下爬虫知识,如下图所示:

顺利地解决了粉丝的问题。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ozro7JJbLM4sLErfdmF1uZ5w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券