前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nodejs写的爬虫及模拟提交知识分享

Nodejs写的爬虫及模拟提交知识分享

作者头像
javascript.shop
发布2019-09-04 16:35:43
6140
发布2019-09-04 16:35:43
举报
文章被收录于专栏:杰的记事本杰的记事本

这篇文章 主要学习这两个模块的使用:request-promise-native : https://github.com/request/request-promise-nativecheerio :https://github.com/cheeriojs/cheerio

nodejs有个request模块,专门处理这些网络请求方面的。 就像.NET也有request,webclient,httpclient啥的。。。

nodejs的request使用方法在这,自己查一下: https://github.com/request/request

而我喜欢用async和await的写法,因此我还引入了request-promise-native 模块, https://github.com/request/request-promise-native  ,这个就相当于.NET中httpclient吧。

好了背景就讲这么多,我们就开始简单的使用request-promise-native,进行模拟提交。

我用淘宝镜像安装模块,会比较快比较快一些,注册淘宝镜像方式:

代码语言:javascript
复制
npm install -g cnpm --registry=https://registry.npm.taobao.org

然安装模块:

代码语言:javascript
复制
cnpm install --save request
cnpm install --save request-promise-native

我们登陆后 ,尝试发一篇文章,然我们分析一下提交的东西:

主要是 Cookie以及 FormData。

好了,然后我们写一个 cnblogs,来处理提交,代码:

代码语言:javascript
复制
const request = require('request-promise-native');
// const proxy = 'http://127.0.0.1:8888';
const url = 'https://i.cnblogs.com/EditPosts.aspx?opt=1';
class Cnblogs {
  static async save({ title, content, postdate }) {
    let response = await request({
      url: url,
      method: 'POST',
      headers: {
        Cookie: '[隐私隐私隐私]',
      },
      form: {
        __VIEWSTATE: '===========',
        __VIEWSTATEGENERATOR: 'FE27D343',
        Editor$Edit$txbTitle: title,
        Editor$Edit$EditorBody: `<p style="color: red; font-weight: bold;">原文发布时间为:${postdate} —— 来源于本人的百度文章 [由搬家工具导入]</p>${content}`,
        Editor$Edit$APOptions$Advancedpanel1$cklCategories$0: '1031596',
        Editor$Edit$Advanced$ckbPublished: 'on',
        Editor$Edit$Advanced$chkDisplayHomePage: 'on',
        Editor$Edit$Advanced$chkComments: 'on',
        Editor$Edit$Advanced$chkMainSyndication: 'on',
        Editor$Edit$lkbPost: '发布'
      }
    });
    return response;
  }
}

module.exports = Cnblogs;

嗯,我们建立一个 app.js 调用一下测试吧:

代码语言:javascript
复制
const cnblogs = require('./cnblogs');

const main = async () => {
  try {
    let response = await cnblogs.save('测试','测试内容','2018-01-01');
    console.log(response);
  } catch (err) {
    console.error('[ERROR]', err);
  }
};

main();

执行node app,我们发现, 导入成功了。。。。我用类似的方法 从自己百度文章抓取文章,然后调用 cnblogs.save(); 进行导入:

抓取文章也是很简单的,为了方便从response查找dom,我们可以用这个模块 cheerio : https://github.com/cheeriojs/cheerio , 就类似于我们做.NET的时候会用 HtmlAgilityPack 来查找dom一样。

cheerio 可以去看看,他的语法跟jquery一样,使用起来很方便。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年7月16日2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档