python爬虫:将本人博客园文章转化为MarkDown格式

本周又和大家见面了,首先说一下两周之后要进行研究生的期末考试,所以这次可能是考试之前的最后一更,我要忙着复习了,还请大家见谅,一般情况下我都是每周更新一篇技术原创。

  好了,废话不多说,咱们进入今天的主题。由于我在简书也有自己的基地,所以每次在博客园文章更新完,还要在简书进行更新。由于简书文章的编辑格式是MarkDown,所以前几次更新修改格式都是非常麻烦,浪费时间,尤其是有了图片之后。于是,为了不让自己的时间浪费在这么无聊的事情上,我就用学到的爬虫知识,对我写的文章进行格式的转化(当然我只是按照我文章的格式进行解析的,不具有通用性,之后可以完善通用性)。

  咱们就按照我写的上面文章Scrapy爬取美女图片第四集 突破反爬虫(上)为例,进行格式的转化。

  来到这个界面:

你会发现文章中主要包含这几种特殊对象: 段落文本(有颜色和无颜色之分),图片(主要是提取图片链接),代码框中的代码。所以咱们需要对这几种对象进行分别提取和转化。

  老规矩,打开firebug,输入链接,这次不仅需要观察HTML结构,还要观察网络这个选项,捕获这个get请求,会发现很大的不同。

  同样是表现的代码内容,发现网络请求返回的标签和最后生成的标签是不一样的。这就是通过javascript动态修改html。那咱们该以什么为准呢?当然是以网络请求的格式为准,因为在实际的网络访问中就是获取的这个内容。

  通过上面的可以看到代码都是由pre标签进行包裹,其他内容都是由p标签进行包裹。所以为了统一格式,先将获取到的pre标签换成p标签,并添加code属性进行区分。当然用到的还是bs4这个神器。直接看一下代码:


soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8'

pres = soup.findAll('pre')

for pre in pres:

pre.name ='p'

pre['code']='yes'


首先提取其中图片的链接,并按照标签的顺序添加到list中存储:


ps = soup.findAll('p')

for p in ps:

img = p.img

if img !=None:

self.content={'tag':'img','content':img['src']}

self.papers.append(self.content)


接着提取code的代码内容,并按照标签的顺序添加到list中存储:


if p.get('code')=='yes':

self.content={'tag':'code','content':p.text.replace('&nbsp:','').strip()}

self.papers.append(self.content)


然后将正常段落中的颜色部分进行标注,我习惯是将加颜色的文字,最后转化为加粗形式。从格式中看到,加颜色的字体使用span标签进行包裹的。

咱们将标签进行替换和标注,以便后续处理。


elif p.span != None:

spans = p.findAll('span')#找到所有的span标签

for span in spans:

# print span.text

if span.get('style').find('color')!=-1:

# del span['style']

# span.name='color'

if span.string!=None:

span.string = 'c_start'+span.string+'c_end' #对有颜色的文本进行标注


有时候会发现,文本中有链接,咱们还要把链接进行按次序提取。


links =p.findAll('a')

for link in links:

if link.string!=None:

link.string = '['+link.string+']'+'('+link.string+')'

self.content={'tag':'text','content':p.text.replace('&nbsp:','').strip()} self.papers.append(self.content)


经过这几个步骤就将所有要提取的内容都分离出来了,接下来进行转化为markdown格式。


#coding:utf-8

class Convert(object):

@classmethod

def convert(self,papers):

str = ''

with open('D:\markdown.txt','w') as file_writer:

for p in papers:

if p['tag']=='text':

str = p['content'].replace('c_start','**').replace('c_end','**') #这个是替换颜色,使用加粗

pass

elif p['tag']=='code':

str = '```'+'\r\n'+p['content']+'\r\n'+'```' #这个是代码框的添加

else:

#![](http://upload-images.jianshu.io/upload_images/1823443-7c4c920514b8f0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)#这个是图片链接的转化

str = '![](%s)'%(p['content'])

str = '\r\n'+str+'\r\n'

file_writer.write(str.encode('utf-8'))

file_writer.write('\r\n'.encode('utf-8'))

file_writer.close()


最后咱们看一下效果,将生成的markdown文本复制到简书上去,是否显示正确。这个就是最后简书文章链接:http://www.jianshu.com/p/9159111bcd87。效果还是不错的,可能需要一些微调,以前整理格式要花10几分钟,不超过两分钟就搞定

原文发布于微信公众号 - 七夜安全博客(qiye_safe)

原文发表时间:2016-06-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏维C果糖

设置 IntelliJ IDEA 主题和字体的方法

1 前言 在博文「IntelliJ IDEA 之 HelloWorld 项目创建及相关配置文件介绍」中,我们已经用 IntelliJ IDEA 创建了第一个 J...

54010
来自专栏DeveWork

TwentyTwenty:一个图片特效Jquery 插件

继续发一篇水文。这个Jquery 插件值得推荐——虽然我不清楚在什么情况下适用,但你知道有这个东西,在需要的时候就能用上了——收集多点资源总不是坏事。插件的效果...

1988
来自专栏Phoenix的Android之旅

如何加载一张超大高清图

"大图片加载容易做,可是这个需求要保证在不OOM的情况下能放大查看,还要能清晰展示,这得怎么呢?",愁眉苦脸的小呼说到。

682
来自专栏coding

sublime text 3在win10下中文显示为方块的解决方式

2673
来自专栏魏艾斯博客www.vpsss.net

屏幕 GIF 动态图捕获软件及录制过程

作为站长有时候需要录制屏幕 GIF 动态图片,就得现学现卖。这不魏艾斯博客在使用遨游浏览器的过程中遇到一些 bug 需要提交给官方,遨游技术员希望老魏提供一段正...

1222
来自专栏顶级程序员

12 款 JavaScript 代码测试必备工具

每天都会产生新的代码、用户测试工具和框架。下面的列表列出了可以完成各种测试需求的代码工具。你应该调查研究一下,看这些工具是否适用于你的技术栈和技术需求。 01...

34810
来自专栏程序你好

JavaScript异步图像上传

792
来自专栏微信终端开发团队的专栏

微信iOS9适配总结

每年iOS升级,都会带来一些坑,这次iOS9也不例外。本文总结了微信在适配iOS9上遇到的问题和解决方案。 一、iOS9问题汇总 1. 编译问题(B...

2145
来自专栏FreeBuf

披着羊皮的狼:如何利用漏洞以特定图标伪装可执行文件

这个漏洞背后的图标显示bug可以深溯到Windows图像处理代码,其允许攻击者“借来”本地其他常用的图标并自动将可移植的可执行文件伪装起来,这样就更容易诱使用户...

3548
来自专栏Python小屋

Python实现局域网内屏幕广播的技术要点分析

为更好地保证教学质量和提高学生的学习积极性,我使用Python开发了一套课堂教学管理系统,具有在线点名、在线答疑、随机提问、在线作业管理、在线自测、在线考试、数...

3777

扫码关注云+社区