JS动态加载以及JavaScript void(0)的爬虫解决方案

# Intro

对于使用JS动态加载, 或者将下一页地址隐藏为 JavaScriptvoid(0)的网站, 如何爬取我们要的信息呢?

本文以 Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.

# Detail

Step 1. 按下 F12 或右键 检查进入开发者工具

Step 2. 选中Network一栏, 筛选 XHR请求

XHRXMLHttpRequest, 可以异步或同步返回服务器响应的请求, 并且能够以文本或者一个 DOM 文档的形式返回内容.

JSON是一种与XML在格式上很像, 但是占用空间更小的数据交换格式, 全程是 JavaScript Object Notation, 本文中的36Kr动态加载时获取到的信息就是JSON类型的数据.

网站为了节省空间, 加快响应, 常常没有对 JSON 进行格式化, 导致 JSON 的可读性差, 难以寻找我们要的信息.

我们通过右键打开获取到的 XHR 请求, 然后看看数据是怎样的

使用 Json Handle 后的数据可读性就很高了

Step 3. 分析 URL

结合上面的截图, 分析这条 URL

https://36kr.com/api/newsflash?column_ids=69&no_bid=false&b_id=126035&per_page=20&_=1530699384159

这中间有两个参数很容易可以知道它的用途, 第一个是 per_page=20, 第二个是 _=1530699384159第一个参数是我们每次滚动后可以获取到的信息条数, 第二个是时间戳

试着改第一个参数改为10, 可以看到条数就变为10了.

改为1000呢? 很遗憾, 最大值只有300. 换算下来, 就是最多允许爬 15 页

滑动了超过15页发现仍然有信息显示, 经过转换, 发现它的时间戳只是浏览网页生成的时间戳, 与内容无关

按了几个数字, 修改了 b_id的值, 发现内容确实发生了改变, b_id又是网站设定的规则, 无从入手

改了 no_bidtrue似乎没有变化, 接着修改了 column_id为70, 发现新闻的内容发生改变, 合理猜测这个应该是新闻标签的id.

至此, 我们已大致了解整个 URL 的含义

per_page 每次滑动可以获得的数据条目, 最大值为300 column_ids 新闻内容标签, 69为资本, 68为B轮后等 b_id 新闻集合的某种id 时间戳 记录当前的浏览时间

最后把原本的 URL 缩减为

https://36kr.com/api/newsflash?column_ids=69&no_bid=true&b_id=&per_page=300

舍弃了 b_id, 同时删去时间戳, 防止服务器发现每次接收到的请求时间都是一样的

经过测试, 上述的 URL 是可以获取信息的

Step 4. 开始爬虫

接下来的步骤与平时爬虫类似. 不同的是获取信息不再通过Xpath这些工具, 而是直接通过 JSON 取值

取值方式简单粗暴, 点击对应的内容就可以看路径了

接着用 scrapy shell工具测试下正确性, 然后就可以写代码了.

由于新闻来源隐藏在 description, 经过观察, 不难发现它的规律, 写一条正则获取即可, 如果结果为空, 则说明来源是36Kr

# Source Code

Spider

# -*- coding: utf-8 -*-
import scrapy
import json
import re
from scrapy import Request
from ..items import FinvestItem


class A36krSpider(scrapy.Spider):
    name = '36kr'
    allowed_domains = ['36kr.com']
    start_urls = ['https://36kr.com/api/newsflash?column_ids=69&no_bid=true&b_id=&per_page=300']

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
    }

    def start_request(self):
        yield Request(self.start_urls, headers=self.headers)

    def parse(self, response):
        item = FinvestItem()
        # 转化为 unicode 编码的数据
        sites = json.loads(response.body_as_unicode())

        src_pattern = re.compile('。((.*))')

        for i in sites['data']['items']:
            item['link'] = i['news_url']
            item['title'] = i['title']
            if src_pattern.search(i['description']) == None:
                item['source'] = "36Kr"
            else:
                item['source'] = src_pattern.search(i['description']).group(1)
            item['create_time'] = i['published_at']
            item['content'] = i['description']

            yield item

Pipeline

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo
import re
from scrapy.conf import settings


class FinvestPipeline(object):

    def __init__(self):
        """
        use for connecting to mongodb
        """
        # connect to db
        self.client = pymongo.MongoClient(host=settings['MONGO_HOST'], port=settings['MONGO_PORT'])
        # ADD if NEED account and password
        # self.client.admin.authenticate(host=settings['MONGO_USER'], settings['MONGO_PSW'])
        self.db = self.client[settings['MONGO_DB']]
        self.coll = self.db[settings['MONGO_COLL']]

    def process_item(self, item, spider):
        content = item['content']
        title = item['title']

        fin = re.compile(r'(?:p|P)re-?(?:A|B)轮|(?:A|B|C|D|E)+?1?2?3?轮|(?:天使轮|种子|首)轮|IPO|轮|(?:p|Pre)IPO')

        result = fin.findall(title)
        if(len(result) == 0):
            result = "未透露"
        else:
            result = ''.join(result)

        content = content.replace(u'<p>', u' ').replace(u'</p>', u' ').replace(u'\n\t', ' ').strip()
        # delete html label in content
        rule = re.compile(r'<[^>]+>', re.S)
        content = rule.sub('', content)


        item['content'] = content
        item['funding_round'] = result
        self.coll.insert(dict(item))
        return item

JSON Handle及抓取网站地址

下载地址: http://jsonhandle.sinaapp.com/

抓取网站:https://36kr.com/newsflashes


入门小白, 欢迎大家指出错误, 技术交流

GitHub项目地址

https://github.com/FesonX/finvest-spider

原文发布于微信公众号 - 程序员的碎碎念(gh_53e607dd4782)

原文发表时间:2018-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏个人随笔

JFinal 3.3 学习 -- JFinalConfig (配置web项目)

4795
来自专栏有趣的django

python爬虫人门(10)Scrapy框架之Downloader Middlewares

设置下载中间件(Downloader Middlewares)  下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.d...

3738
来自专栏Java帮帮-微信公众号-技术文章全总结

Web-第十天 Cookie&Session学习

当用户访问某些Web应用时,经常会显示出该用户上一次的访问时间。例如,QQ登录成功后,会显示用户上次的登录时间。通过本任务,读者将学会如何使用Cookie技术实...

1573
来自专栏macOS 开发学习

macOS 应用开发小集锦

输出结果与当前app的语言环境有关(默认为English),如果需要修改工程的语言环境,需要设置Edit Scheme...

1032
来自专栏张戈的专栏

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守 robots 规则对服务器造成压力,还不能为网站带来流...

5495
来自专栏桥路_大数据

Python3使用Scrapy快速构建第一款爬虫

3567
来自专栏Linux驱动

第1阶段——uboot分析之硬件初始化start.S(4)

分析uboot第一个执行函数_start(cpu/arm920t/start.S)  打开cpu/arm920t/start.S 1 .globl _start...

2628
来自专栏程序员的碎碎念

JS动态加载以及JavaScript void(0)的爬虫解决方案

对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢?

1636
来自专栏Linux驱动

15.linux-LCD层次分析(详解)

如果我们的系统要用GUI(图形界面接口),这时LCD设备驱动程序就应该编写成frambuffer接口,而不是像之前那样只编写操作底层的LCD控制器接口。 什么是...

2656
来自专栏熊二哥

Java并发编程快速学习

上周的面试中,被问及了几个关于Java并发编程的问题,自己回答的都不是很系统和全面,可以说是“头皮发麻”,哈哈。因此果断购入《Java并发编程的艺术》一书,学习...

2288

扫码关注云+社区

领取腾讯云代金券