一、前言
上道网是一个手游发行推荐与投融资交易平台。平台聚集手游CP、手游发行、手游渠道、手游外包,投资商以及IP授权商,IP合作、一站式服务。并为之提供合作交易机会。
今天教如何去爬取上道网的赞助公司名称,方便有关人士投资。
获取对应的公司名称,保存文档。
软件:PyCharm
需要的库:requests,fake_useragent,time
网址:http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-1.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-2.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-3.html
http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-4.html
点击下一页时,每增加一页p-{}.html自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。
import requests
from lxml import etree
from fake_useragent import UserAgent
import time
class Shangdao(object):
def __init__(self):
self.url = "http://www.daogame.cn/qudao-p-2.html?s=/qudao-p-{}.html" #网站
def main(self):
pass
if __name__ == '__main__':
Siper = Shangdao()
Siper.main()
for i in range(1, 50):
self.headers = {
'User-Agent': ua.random,
}
def get_page(self, url):
res = requests.get(url=url, headers=self.headers)
html = res.content.decode("utf-8")
return html
def page_page(self, html):
parse_html = etree.HTML(html)
one = parse_html.xpath('//h2/a/text()')
for i in one:
print(i)
f = open('公司.doc', 'a', encoding='utf-8') # 以'w'方式打开文件
f.write(str(i))
def main(self):
stat = int(input("输 入 开 始 (2开始):"))
end = int(input("输 入 结 束:"))
for page in range(stat, end + 1):
url = self.url.format(page)
print(url)
html = self.get_page(url)
self.page_page(html)
print("==================第%s页爬取成功!!!!=====================" % page)
time.sleep(1.4)
点击绿色小三角运行输入起始页,终止页( 从0页开始 )。
渠道公司名,结果显示控制台。
保存文档。
4. 需要本文完整代码的小伙伴,可以后台回复"上道"二字进行获取。