首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

织梦自带采集节点管理插件使用方法

使用过织梦系统的站长应该知道,在织梦后台就有自带的采集插件,这个插件完全是免费的,但是采集并不是很强大,有时候回出现一些问题。我们也应该知道,免费的东西就是这样的,那么今天我们就来说说织梦自带采集节点管理插件使用方法,跟大伙分享下!

1、登录后台

登录后台就不用我多说了吧,应该都是没有问题的;

2、采集模块

进入织梦后台之后,在最右侧中找到“采集”并且点开,点开之后我们会看到“采集管理”下面有采集节点管理、临时内容管理、导入采集规则、监控此案件模式等等。

我们主要讲的是“采集节点”所以找到点开。

3、节点配置

在我们打开节点管理的时候发现什么都没有,那我们就要增加新节点了,选择增加新节点之后会出现一个选择框,是选择我们要采集的内容。

(1)节点基本信息

节点名称:我们可以写我们所采集的网站,这样也方便以后的管理;

目标页面编码:这里的编码是指你要采集网站的编码,查看方式:找到要采集的网站,鼠标右击时会出现“查看原文件或者源码”;

区域匹配模式:默认

内容导入顺序:默认

防盗链模式:默认

资源下载超时时间:默认

引用网址:这里的网址是指我们要采集的网址,不是www.xxxx.com 这个是主域名,这里并不能采集整站,我们一般采集的都是对方的栏目文章,所以这的引用网址可以认为是栏目的网址。

(2)列表网址获取规则

来源属性:一共有三个选项,可根据自己的需求所选择,一般都是选择“批量生成列表网址”,因为比较简单并且可以采集多条。

批量生成地址设置:如果我们上面来源属性选择的是“批量生成列表网址”的话那么把采集的网址填入“匹配网址”选框中。(如:http://www.xiaoxiaseo.com/test/list_(*).html,如果不能匹配所有网址,可以在手工指定网址的地方输入要追加的网址)

手工指定网址:在指定了通配规则后有些不能匹配的网址也可以在这里指定。

(3)文章网址匹配规则

区域开始的HTML:指的是栏目列表文章最开始的区域唯一的代码,如下图:

区域结束的HTML:与上面的区域开始一样,找到结束代码,如下图:

如果链接中含有图片:采集为缩略图

对区域网址进行再次筛选:(使用正则表达式)选择包含.html,然后保存信息并进入下一步设置;

显示这样的是属于正常的,如下图:

(4)文章规则

文章标题:跟上面的差不多,如下图:

文章内容:找到文章的开始标签和结束标签,如下图:

过滤规则:根据自己的需求选择

保存配置并预览之后看看采集的文章是不是正常出现,正常出现就开始保存并开始采集把!

采集成功之后可以直接导出到我们要发布的栏目即可。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180730G1OMRB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券