专栏首页咸鱼不闲记一次还可以抢救一下的爬虫私活,求接盘!

记一次还可以抢救一下的爬虫私活,求接盘!

前言

最近接了一个爬虫的私活,收益颇丰。自认为对爬虫掌握的还算不错,爬过很多国内外网站, 数据超过百万,应对过封IP、设验证码、假数据、强制登录等反爬虫手段。于是乎,我毫不犹豫的接下了该活。

但是进行了一半,我遇到了困难,写这篇文章希望能够找到感兴趣的朋友一起解决,一起分享劳动成果。如果到期没有解决的话,就当一次经历记录一下也罢。

项目需求

一个类似百度文库的网站,要求给出url,获得文章,以Word形式保存下来。保持格式不变

我的进展和思路

我以前爬数据都是以文本的形式获得数据,然后清洗,保存数据库。但是这次需要保存到word,这不难,难在要求格式不变。我打算根据元素的css属性,设置在word里面的格式

获取文本和样式

首先我使用我最熟悉的python+selenium+chrome组合,无头模式启动不用打开浏览器比较方便

def open_brower_headless():
    chromeOptions = webdriver.ChromeOptions()
    chromeOptions.add_argument("headless")
    browser = webdriver.Chrome(chrome_options=chromeOptions)
    return browser

文章部分是一个iframe框,通过selenium的switch_to_frame()方法切换到iframe元素,然后就是一系列的定位取值操作,很容易的取到了文章的文本。文章都是以许多<p>标签组合在一起的。通过绝对定位控制格式。 (爬虫手法详情https://segmentfault.com/a/11...

我利用selenium的value_of_css_property()方法可以获得元素的属性(font-familytopfont-size),这个方法比较强,不仅可以获得行内样式的css,还可以获得外嵌式的css,所以我不用担心它的样式写在css文件里。这样每一行的格式我就得到了。

1. 怎么换行?对比该元素和上一个元素的top属性的值,如果不一样就换行,高度不一样必定不在一行,很合理。 2. 文字大小?元素的font-size的大小换算公式 ($/14 +0.5),差不多匹配docx里面的run.font.size的值

docx写入word

python库里面操作word使用的是docxdocx对word 的读写有一套完整的方法。比如:添加文字,设置字体,颜色,大小,段落,表格,添加图片。 docx的使用也非常简单,主要分为三级:file >paragraph >run,下面简单介绍一下:

file = docx.Document()                #新建文件
f = file.add_paragraph("添加段落")     #添加段落
run = f.add_run("追加文字")            #追加文字
run.font.color.rgb = RGBColor(0,0,1)  #设置字体颜色
run.font.size = Pt(36)                #设置字体大小
run.font.name = "宋体"                #设置字体
run._element.rPr.rFonts.set(qn('w:eastAsia'), '宋体')
run.add_break()                       #换行
file.save("d.docx")                   #保存文件

至今进度

如此我完成了一个简单word的爬取和保存。

瓶颈

但是我遇到了更复杂的格式,就是表格。F12后发现表格的边框就是一个图片! 至此我不知道怎么进行下去了。开始我以为识别图片后我可以利用doxc 插入表格,根据文字的位置,插入在对应的表格里,但是我发现有的文章还有其他图片。所以我不能遇到图片就将下面的文字按照表格里面的文字处理。

其他办法

发现这条路似乎走不通后,我试了其他办法,就是pandoc,这是一个文档转化工具,windows下安装后通过输入命令来转化文档。比如将a.html转化为b.docx

pandoc  -s a.html -o b.docx

但是得到得word 格式还没有我上面程序写的好,应该是我不太会用,网上对pandoc评价很高,几乎神器。 我尝试将html先转化为pdf,然后再转word.但是失败了,需要安装pdf 引擎,而且需要配中文之类的,总之我没有成功,不知道转化成pdf后再转化word 它能否识别并插入表格。而不是背景图。 知情人请告知,感激不尽。

我发现文章结构的class名和百度文库里的一样,这是通过百度富文本编辑器编辑的吧?,如果是这样通过这个富文本编辑器反编辑一下是否可行?

后面的话

距离项目测试版交期还有3天,搞不定这个问题话就黄了,如果有朋友能够解决或者有思路的话可以一起完成,报酬四位数。一起吃鸡,真不舍得放弃!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 过滤器, 拦截器,监听器

    下面介绍过滤器和拦截器以及监听器的使用方法: 执行顺序 :监听器 > 过滤器 > 拦截器

    Mshu
  • Spring整合Quartz调度器

    Quartz是一个任务调度框架,由Java语言开发,可以用来做一些定时发送,监听事件等工作。 例如:让一个程序每天晚上12点执行一次。或者每隔5秒执行一次。

    Mshu
  • MySQL定时备份方案

    本片文章介绍的方案是利用Linux自身的crontab定时任务功能,定时执行备份数据库的脚本。

    Mshu
  • 机器学习--Apriori算法

    一、基本原理 关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十...

    机器学习AI算法工程
  • 微软轻量级系统监控工具sysmon原理与实现完全分析

    前两次我们分别讲了sysmon的ring3与ring0的实现原理,但是当初使用的版本的是8.X的版本,最新的版本10.X的sysmon功能有所增加,经过分析代码...

    FB客服
  • Python scapy模块个人见解

    from scapy.all import *    //来自scapy.all文件,导入所有函数

    py3study
  • 【趣学程序】Java中的数组

    趣学程序-shaofeer
  • 一致性哈希(Consistent Hashing)算法的原理与实现

    分布式系统中对象与节点的映射关系,传统方案是使用对象的哈希值,对节点个数取模,再映射到相应编号的节点,这种方案在节点个数变动时,绝大多数对象的映射关系会失效而需...

    IT技术小咖
  • VBA Object对象的函数参数传递

    VBA的函数参数传递方式是Byval和Byref,数值类型、Stirng等那些值类型的是要非常注意用哪种方式的。对于Object对象引用类型的一直都说2种方式完...

    xyj
  • Python flask框架如何显示图像到web页面

    先用py绘制了xy的图像,然后经过几个命令,让其转化为plot_url,在传给plot.html,就可以了

    砸漏

扫码关注云+社区

领取腾讯云代金券