文章/答案/技术大牛

发布

小说爬取了解一下

文章来源：企鹅号 - 锦河工作室

终于考完试了可以做些自己的东西了。小说爬取代码如下，这次用到了 xpath。

import requests

from lxml import html

import re

import time

def get_url():

url = "https://www.ybdu.com/xiaoshuo/0/910/"

#header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}

res = requests.get(url)

seletor = html.fromstring(res.content)

urls = []

mulu_list = []

img = seletor.xpath('//div/div/ul/li/a/@href')

mu_lu = seletor.xpath('//div/div/div/ul[@class="mulu_list"]/li/a/text()')

for i in img:

k = str(url)+str(i)

urls.append(k)

for m in mu_lu:

mulu_list.append(m)

return urls[5:],mulu_list

#print(get_url())

def dowmload():

count = 0

for link in get_url()[0]:

res = requests.get(link)

seletor = html.fromstring(res.content)

nei_rong = seletor.xpath('//*[@id="htmlContent"]/text()')

j = len(nei_rong)

i = 0

out = ""

while i

out1 = "".join(nei_rong[i].split())

out = out+str(out1)

i = i + 1

#print(out)

print (get_url()[1][count])

f = open(get_url()[1][count-1] + ".txt", 'a')

print ("正在载入第" + str(count))

f.write(out)

f.close()

count = count + 1

dowmload()

#print (get_url()[0])

加关注

公众号：锦河工作室

发表于: 2018-07-132018-07-13 13:29:29
原文链接：https://kuaibao.qq.com/s/20180713G0UVG700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

小说爬取了解一下

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐