前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大伙,为啥我爬虫爬百度搜索得出的结果是0啊?

大伙,为啥我爬虫爬百度搜索得出的结果是0啊?

作者头像
Python进阶者
发布2023-09-02 09:36:08
3330
发布2023-09-02 09:36:08
举报
文章被收录于专栏:Python爬虫与数据挖掘

一、前言

前几天在Python白银交流群【~Crazy】问了一个Python网络爬虫处理的问题,这里拿出来给大家分享下。

二、实现过程

这里【eric】给了一个指导,可能是网页结构变化。

这里【甯同学】发现了问题所在,如下图所示:

顺利地解决了粉丝的问题。

修改后的代码可以正常的爬出结果。

详细代码如下:

代码语言:javascript
复制
import os
import random  
import time
import pandas as pd  
import requests 
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.70",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "Connection": "keep-alive",
    "Accept-Encoding": "gzip, deflate",
    "Host": "www.baidu.com",
    "Cookie": "BIDUPSID=E5DC3B4CB152A27DBF1D270E3503794B; PSTM=167872138 ZFY=DqhB1QpFu:APeJVy:AOeNNGsu1YREtMxYZgrqntwJNQlE:C; delPer=0; BD1"
}
def baidu_search(v_keyword, v_result_file, v_max_page):
    """
      :param v_keyword: 搜索关键词
      :param v_result_file: 保存文件名
      :param v_max_page: 爬取前几页
      :return:
      """
    for page in range(v_max_page):
        print('开始爬取第{}页'.format(page + 1))
        # wait_seconds = random.uniform(5, 10)
        # print('开始等待{}秒'.format(wait_seconds))
        # time.sleep(wait_seconds)
        url = 'https://www.baidu.com/s?&wd=' + v_keyword + '&pn=' + str(page * 10)
        r = requests.get(url, headers=headers)
        html = r.text
        soup =  BeautifulSoup(html)
        result_list = soup.find_all(class_='result c-container xpath-log new-pmd')
        print('正在读取:{},共查询到{}个结果'.format(url, len(result_list)))
        kw_list = []
        page_list = []
        title_list = []
        href_list = []
        desc_list = []
        site_list = []
        for result in result_list:
            title = result.find('a').text
            print('title is: ', title)
            href = result.find('a')['href']
            try:
                desc = result.find(class_="c-container").text
            except:
                desc = ""
            try:
                site = result.find(class_="c-color-gray").text
            except:
                site = ""
            kw_list.append(v_keyword)
            page_list.append(page + 1)
            title_list.append(title)
            href_list.append(href)
            desc_list.append(desc)
            site_list.append(site)
        df = pd.DataFrame(
            {
                '关键词': kw_list,
                '页码': page_list,
                '标题': title_list,
                '百度链接': href_list,
                '简介': desc_list,
                '网站名称': site_list,

            }
        )
        if os.path.exists(v_result_file):
            header = None
        else:
            header = ['关键词', '页码', '标题', '百度链接', '简介', '网站名称']
        df.to_csv(v_result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
        print('结果保存成功:{}'.format(v_result_file))
    

if __name__ == '__main__':
    search_keyword = '地铁故障起火'
    max_page = 20
    result_file = '百度爬虫{}_前{}页.csv'.format(search_keyword, max_page)
    if os.path.exists(result_file):
        os.remove(result_file)
        print('结果文件({})存在,已删除'.format(result_file))
    baidu_search( search_keyword, result_file, max_page)

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python网络爬虫的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【~Crazy】提问,感谢【甯同学】、【瑜亮老师】给出的思路和代码解析,感谢【eric】等人参与学习交流。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting1),应粉丝要求,我创建了一些高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、实现过程
  • 三、总结
相关产品与服务
数据脱敏
数据脱敏(Data Masking,DMask)是一款敏感数据脱敏与水印标记工具,可对数据系统中的敏感信息进行脱敏处理并在泄漏时提供追溯依据,为企业数据共享、迁移、分发提供安全保护措施。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档