Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)

概要 这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据)

http://blog.csdn.net/jokerkon/article/details/50868880

后进行的第二部分,请各位读者在看这篇博客之前先浏览上一篇,因为这里面有部分代码会沿用到上一部分的抓取结果。  好,现在开始正式的抓取图片的讲解  首先,我们先来看看代码:

var page =require('webpage').create();
var address='http://product.pconline.com.cn/notebook/series/417764.html';
var fs = require('fs');
var mypath='version/Server/server.txt';
var stream = null;
var steams = null;
var files = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_img.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";



function start(url){
  page.open(url,function(status){
    setTimeout(function(){
    if(status == 'success'){
    console.log('open success!');
    console.log('==========begin work!=============');
    stream = page.evaluate(function(){
      var title = document.querySelector('.pro-info').innerText;
      // title = title.replace('图片','');
        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
        var href = document.querySelector('.pics>li>a');
          return title+':'+cont+':'+href+'\r\n';
    });
    console.log(stream);
    try{
      fs.write(dragPath, stream, 'a');
    }catch(e){
      console.log(e);
      fs.write(dragPath, null, 'a');
    }
  }else{
    console.log('page open fail!');
  }
    before();
            }, 100);
  });

}



function readFile(status){
    streams = fs.open(mypath,'r');
    before();
}

function before(){
  console.log('=========work in befor==========='+K);
  K++;
  if(!streams.atEnd()){
    console.log('=========work in befor get Next Line===========');
        line = streams.readLine();
        cate = line.split(',');
    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
    var imgs = imgUrl.split('/');
    var imgsUrl = imgs[1].split('.');
    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
    console.log(imgsUrl);
        start(imgsUrl);
    }else{
    console.log('end!!!!!!!!!!!!');
    phantom.exit();
    }

}




page.open(address,function(status){

  readFile(status);

})

这部分代码的结构和前面的都很相似,下面我们继续进行代码剖析

page.open(address,function(status){

  readFile(status);

})

与前面相似,这里是我们代码的入口,程序启动的入口。

然后会调用readFile函数

function readFile(status){
    streams = fs.open(mypath,'r');
    before();
}

这里使用phantomjs里面的fs请求,主要就是用来解决文件读取的问题

var fs = require('fs');

再读取到文件之后,我们将进行数据处理:

function before(){
  console.log('=========work in befor==========='+K);
  K++;
  if(!streams.atEnd()){
    console.log('=========work in befor get Next Line===========');
        line = streams.readLine();
        cate = line.split(',');
    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
    var imgs = imgUrl.split('/');
    var imgsUrl = imgs[1].split('.');
    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
    console.log(imgsUrl);
        start(imgsUrl);
    }else{
    console.log('end!!!!!!!!!!!!');
    phantom.exit();
    }

}

我们可以先来看看原本数据是什么样的:

联想ThinkServer TS130 S1225/2G/500O       价格:¥5417,http://product.pconline.com.cn/server/lenovo/514943.html

上面是我们从文件中读取到的数据,这一段数据都属于这个品牌电脑的数据。在读取完之后,我们对url进行拼接。

http://product.pconline.com.cn/pdlib/514943_picture.html

这个是我们要获取到的目的url,读者可以自己研究有什么规律,我这里的拼接方法有点挫。你们可以自己改进。

function start(url){
  page.open(url,function(status){
    setTimeout(function(){
    if(status == 'success'){
    console.log('open success!');
    console.log('==========begin work!=============');
    stream = page.evaluate(function(){
      var title = document.querySelector('.pro-info').innerText;
      // title = title.replace('图片','');
        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
        var href = document.querySelector('.pics>li>a');
          return title+':'+cont+':'+href+'\r\n';
    });
    console.log(stream);
    try{
      fs.write(dragPath, stream, 'a');
    }catch(e){
      console.log(e);
      fs.write(dragPath, null, 'a');
    }
  }else{
    console.log('page open fail!');
  }
    before();
            }, 100);
  });

}

最后调用数据抓取的函数,

var title = document.querySelector('.pro-info').innerText;
      // title = title.replace('图片','');
        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
        var href = document.querySelector('.pics>li>a');
          return title+':'+cont+':'+href+'\r\n';

这里面的就是我们要抓数据的处理,分别获取到的是标题,小图的绝对地址,已经大图的url。

联想ThinkServer TS130 S1225/2G/500O图片:http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg:http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html

这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作,然后再重新调用before()方法,进行循环调用,直至读取玩文件的所有内容。

以上就是我们进行图片抓取的全部过程,原本还有一份代码是用来抓取大图的,但是由于与本文的内容相似度极高,所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。

NodeJs 图片下载 接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。

先上代码:

var request = require('request');
var lineReader = require('line-reader');
var fs = require('fs');
var i=0;

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last) {

  var cate = line.split(':');
  var url1 = cate[1];

  var tt = cate[0].replace(/\//g,',');
  i++;
  console.log(tt+'==============>'+i);
  if(!(url1 == 'null')){
    tt = tt.replace(/\s/g,'');
    tt = tt.replace(/[^a-z\d]/ig,"");



    var filename1 = 'images/router_large/'+tt+'bPic.jpg'
    request(url1).pipe(fs.createWriteStream(filename1));

  }
});

没错代码就那么短,我们来一段一段的分析:

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last)

这里是我们下载文件的入口,使用到了nodejs里面的

var lineReader = require('line-reader');

这段代码的用处就是逐行读取文件。

  tt = tt.replace(/\s/g,'');
    tt = tt.replace(/[^a-z\d]/ig,"");

这里面我主要是处理一下文件名,除去了一些特殊符号已经中文名,便于存入数据库。

request(url1).pipe(fs.createWriteStream(filename1));

最后调用这部分代码进行文件下载。

以上就是抓取图片的全部内容,谢谢观看。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Android群英传

如何让 Mac 版微信客户端防撤回

1303
来自专栏菩提树下的杨过

FluorineFx:远程共享对象(Remote SharedObjects)

单纯从客户端上来看,FluorineFx的RSO跟FMS中的RSO几乎没什么不同(参见Flash/Flex学习笔记(15):FMS 3.5之远程共享对象(Rem...

1826
来自专栏从零开始学自动化测试

python笔记13-多线程实践篇(tomorrow)

前言 前面几篇连续讲解了多线程的一些概念,都是一些理论的东西,有了一些理论基础了,接下来就让我们把所学的知识用到实践中吧! ? 一、 安装 1.tomorrow...

3066
来自专栏PhpZendo

什么是依赖注入

本文是依赖注入(Depeendency Injection)系列教程的第一篇文章,本系列教程主要讲解如何使用 PHP 实现一个轻量级服务容器,教程包括:

711
来自专栏xiaoheike

Windows 托盘区域显示图标

这个结构体包含了向通知区域(底部任务栏右下角区域,下面都称为托盘)显示的信息。需要使用函数Shell_NotifyIcon。

772
来自专栏葡萄城控件技术团队

Asp.Net MVC4入门指南(8):给数据模型添加校验器

在本节中将会给Movie模型添加验证逻辑。并且确保这些验证规则在用户创建或编辑电影时被执行。 保持事情 DRY ASP.NET MVC 的核心设计信条之一是DR...

16810
来自专栏Android相关

Gradle For Android(9)--自定义构建

现在我们知道了Gradle如何工作,如何创建自己的Task以及Plugin,如何执行test任务,如何设置CI。这一章会包含一些小技巧,接下来会从以下Topic...

621
来自专栏宋凯伦的技术小栈

Android - 通过真实案例学习解内存泄漏问题,最终发现Android原生Bug

  作为一个Android新手小白,刚到新公司,最近的工作就是在学习解各类Bug。转型之初,面临各种新知识,会有压力,但是学习的过程是快乐的。   上周刚遇上一...

1888
来自专栏Android群英传

Google I/O 之 Android App Bundles 是个啥

1242
来自专栏葡萄城控件技术团队

Url Rewrite 再说Url 重写

前几天看到园子里一篇关于 Url 重写的文章《获取ISAPI_Rewrite重写后的URL》 , URL-Rewrite 这项技术早已不是一项新技术了,这个话题...

3798

扫码关注云+社区