首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【两天完成简书搬家】——第一天,NodeJS爬取简书数据

简书遵循“简单书写”的原则,限制了我的一些想法,比如我想添加个背景音乐,又或者想添加个表情,或做个分类查询等,此外我有一个放杂物的网站空间,放着浪费了,所以就打算建设自己的空间。 当然不是因为那个“饱醉豚”事件,在它越演越烈之前,我就看到那篇争议的文章,顺便看了他几篇文章,我一笑置之,与一个哗众取宠、低智商低情商、毫无论据,甚至毫无文笔的生物有啥好计较的?只是没想到关注的几个人,鉴于简书及简书CEO的态度都纷纷清空简书,叹哉!不过也可以理解一下,一个签约作者写这样的文章居然还能得到简叔的支持:

03

九行代码带你爬取任何你想要爬取的图片

首先,我们直接用的是icrawler这个爬取的模块,简直是太方便了,用不着再去分析网页,用不着再去写正则。。都不用,一个循环遍历就行,模块给我们封装好了。 解释下,我注释掉的部分分别是百度和谷歌的这个搜索引擎模块(我这这么叫的)吧,看那个英文单词crawler就是爬虫的意思,我在这里用的是bing的爬虫。你们要用别的爬虫也可以的。 第一步代码:我定义的这个列表。列表的话,我们可以任意添加多少,添加你任何想要爬取的图片。举个例子,我想要爬取张杰,林俊杰,周杰伦他们的图片,那我们就在列表里面分别添加这三个人的,注意分开哈,看我代码,我是分开了的。(偷偷说一下,想要爬取美女帅哥图片,可以直接列表中装个’美女’,‘帅哥’,哈哈) 第二步:遍历这个列表,然后在下面顶一个我们要保存的路径,我是装在一个photo的文件夹,不用自己取建立文件夹,就在代码里面把定义好自己的文件夹名字,运行完成后会生成文件夹。我这里是运行完成后生成photo文件夹,这个文件夹下两个子文件夹,分别为李现和陈晓的文件夹。 第三步就是用这个模块,定义解析器数目和下载线程数,建议别太大,我觉得可能会被封ip.一般五六个差不多了。 最后一步就是根据关键字和图片数量进行开始爬取。

02
领券