前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python关键词百度指数采集,抓包Cookie及json数据处理

Python关键词百度指数采集,抓包Cookie及json数据处理

作者头像
二爷
发布2020-07-22 11:35:21
1.5K0
发布2020-07-22 11:35:21
举报
文章被收录于专栏:二爷记二爷记

百度指数(Baidu Index)是以百度海量网民行为数据为基础的数据分析平台,是当前互联网乃至整个数据时代最重要的统计分析平台之一,自发布之日便成为众多企业营销决策的重要依据。

简单的deom,

Python关键词百度指数采集,

抓包Cookie及json数据处理,

需要注意协议头的添加,

尤其是cookies!

几个关键点:

1.抓包处理

2.Cookie使用添加 3.json数据处理转换

批量采集关键词百度指数 ,需要cookie池!

百度账号cookie为 “BDUSS=xxx”

百度指数是百度大数据的一种统计方式,它把每天在百度的关键词搜索量以数据的方式呈现,让你更好的知道每个关键词的搜索量。

百度指数有什么用?

1:查询关键词热度

百度指数可直观的看到每个关键词的热度,指数越高,代表这个词的商业价值越高。

2:查询趋势

当你把指数的时间放大了来看的话,会发现,这个关键词的一个整体的趋势,是上升,还是下降?有助于你对未来的商业决策的一个判断。

3:查询相关词

点击需求图谱,可查看搜索关键词的人都在查看什么,通过分析,你就可以知道大家都在搜些什么内容。

4:查看人群画像

点击人群画像,你就可以看到搜索关键词的人的人群画像了,分为地域、年龄分布、性别分布。

协议头抓包:

效果:

附完整源码参考:

代码语言:javascript
复制
#关键词百度指数采集
#20191119 by 微信:huguo00289
# -*- coding: UTF-8 -*-

import requests,json,time

def get_index(keyword,cook):
    headers={
        'Accept': 'application/json, text/plain, */*',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Connection': 'keep-alive',
         'Cookie': cook,
        'Host': 'index.baidu.com',
        'Referer': 'http://index.baidu.com/v2/main/index.html',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
    }

    #keyword="seo"
    url=f'http://index.baidu.com/api/SearchApi/index?word={keyword}&area=0&days=30'
    response=requests.get(url,headers=headers).text
    time.sleep(2)
    #req=requests.get(url,headers=headers).json() #转换为json
    req=json.loads(response) #转换为json
    print(req)
    print(req['data']['generalRatio'][0])
    for k,v in req['data']['generalRatio'][0].items():
        print(k,v)

    data=req['data']['generalRatio'][0]
    all_avg=data['all']['avg']  #百度指数
    pc_avg=data['pc']['avg']  #百度pc端指数
    wise_avg=data['wise']['avg']  #百度移动端指数
    print(f'百度指数:{all_avg}')
    print(f'百度pc端指数:{pc_avg}')
    print(f'百度移动端指数:{wise_avg}')


if __name__ == '__main__':
    keyword=input('请输入要查询百度指数的关键词:')
    cook =input('请添加百度账号的cookies:')
    get_index(keyword, cook)

注意,协议头headers需要自行重新添加!

百度指数采集需要登录百度账号!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与SEO学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档