前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Pholcus爬虫] 实现一个简单的下载文件的动态规则

[Pholcus爬虫] 实现一个简单的下载文件的动态规则

作者头像
henrylee2cn
发布2019-04-04 15:18:18
8320
发布2019-04-04 15:18:18
举报
文章被收录于专栏:Go实战Go实战

Pholcus爬虫的动态规则使用 .pholcus.html 作为规则文件后缀,默认放在当前目录的 ./pholcus_pkg/spiders 文件夹中。用户可以在配置文件 ./pholcus_pkg/config.ini 中通过修改“spiderdir”字段来修改动态规则目录,下面代码是一个下载本人github主页的动态规则示例:

代码语言:javascript
复制
<Spider>
    <Name>henrylee2cn github profile</Name>
    <Description>(HTML动态规则示例) 文件下载测试 [https://github.com/henrylee2cn]</Description>
    <!-- Pausetime为0,表示使用操作界面设置的暂停时间 -->
    <Pausetime>0</Pausetime>
    <!-- EnableLimit为false,表示默认使用请求数作为操作界面采集上限的控制项 -->
    <EnableLimit>false</EnableLimit>
    <!-- EnableCookie为false,表示不缓存cookie,从而软件将自动更换User-Agent -->
    <EnableCookie>false</EnableCookie>
    <!-- EnableKeyin为false,表示不使用来自操作界面的自定义配置信息 -->
    <EnableKeyin>false</EnableKeyin>
    <!-- NotDefaultField为true,表示不输出文本结果的默认字段如Url、ParentUrl、DownloadTime -->
    <NotDefaultField>true</NotDefaultField>
    <!-- Namespace影响结果输出的路径或者数据库、表单名称 -->
    <Namespace>
        <Script></Script>
    </Namespace>
    <!-- SubNamespace根据结果数据调整结果输出的路径或者数据库、表单名称 -->
    <SubNamespace>
        <Script></Script>
    </SubNamespace>
    <!-- Root为采集规则执行的入口 -->
    <Root>
        <Script param="ctx">
        ctx.JsAddQueue({
            Url: "https://github.com/henrylee2cn",
            Rule: "github"
        });
        </Script>
    </Root>
    <!-- Rule为各个规则分支,可以有多个 -->
    <Rule name="github">
        <ParseFunc>
            <Script param="ctx">
            // 打印日志
            ctx.Log().Debug("henrylee2cn's github URL: %v", ctx.GetUrl());
            // ctx.FileOutput()直接输出文件,可选参数为空时根据url自动判断文件名
            ctx.FileOutput();
            </Script>
        </ParseFunc>
    </Rule>
</Spider>

这里下载Pholcus幽灵蛛爬虫源码。

(adsbygoogle = window.adsbygoogle || []).push({});

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016/09/02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档