东尧爱分享
这是东尧每天一篇文章的第36天
东尧写文章的目标:分享东尧的经验和思考,帮你获取物质和精神两方面幸福。
每一个做SEO的朋友在进行关键词挖掘的时候都会用到百度的下拉框来进行需求分析和收集关键词。但是如果我们用手工一个词一个词的去点击百度,想要获得数万级的关键词是非常费时间费精力的。
今天东尧介绍的这篇python开发教程就是专门针对SEO的百度下拉框关键词挖掘,它能够帮你轻松获取百万关键词,大大提高工作效率。
1
搜索引擎下拉框关键词获取
因为百度下拉框的关键词是使用异步加载的,所以我们需要可以通过抓包的方式获取到对应接口作为函数内的页面输入。抓包工具直接使用谷歌浏览器的开发者工具就可以(上一篇文章讲过的右键检查工具里network选项),截图如下:
通过这里我们就可以获得关键词“SEO”下拉框下的关键词,然后我们再把这里的链接打开分析其构成特点:
可以看到的是,URL里面在关键词“SEO”后面还跟了很长很长的参数,那我们现在试试把参数去掉是什么样:
咦?把参数去掉后得到的结果就是下拉框关键词的列表,并且比之前更加简洁准确了。那我们试试直接在URL上面更新关键词,看能不能得到对应的下拉框关键词列表呢?
结果已经证明了我们的猜想,直接在URL上更改关键词,就可以得到它的下拉框列表,那我们就可以用urlopen()方法和正则表达式将这个URL的网页内容上的关键词提取出来了。
第一步:下拉框关键词获取get√
2
关键词去重处理
用过百度下拉框的朋友都知道,相似关键词丢进去可能有相同的词出现,比如“SEO”的下拉关键词中包含“SEO优化是什么”,而“SEO优化”下拉框中也有“SEO优化是什么”这个关键词。所以我们需要专门的函数来对得到的结果进行处理,包括去重处理。思路如下:
通过这样不断得循环,可以获得无限多的词语,直到“待搜索”列表中没有词语才结束。这里为什么要对关键词出现的次数进行统计呢?
这是因为某个搜索词出现的次数越多,那么被用户点击的机会就越大(搜索量可能就越大),相当于这个词就是热门词,那么我们后面就可以通过对关键词出现的次数进行排序,得到关键词热门排序结果。
3
函数设置
根据刚才的需求分析,我们可以整理出三个函数:下载源码函数、提取结果函数、关键词过滤函数。
下载源码函数我们在昨天的课程中已经写了一个通用下载函数,直接复制过来使用即可,另外两个函数如下:
正则表达式提取结果函数:
关键词过滤函数:
4
运行结果
最后,其实我们发现这个程序是有一个bug的,那就是没有结束条件,也就是说它可能会无限无限的挖下去,并且越到后面,挖出的词相关性就越差,所以我们还需要设置一个递归的次数限制来保证关键词的相关性和程序的结束。
另外,挖出的词语如何保存到文件中,这两个内容都是下一节的教程中我会讲到的,欢迎大家继续关注百度关键词下拉关键词挖掘工具第二篇。
源码下载
领取专属 10元无门槛券
私享最新 技术干货