最近重新写爬虫的课程,发现有些以前爬过的网站都消失了,到处找可爬的网站还有案例,收获不多,除了自建教学网站,想要找一些稳定,有趣且有一定实用价值的爬虫项目网站太难了。
业余时间除了自己学习,也做了几个小案例,给大家分享一下:
案例一:单词测试工具
这个案例是之前的一个案例python 模拟单词测试(2)改写的,稍微做了一些优化。
案例想法其实是胡老师提供的,原本是让我做一个英语测试的网站的, 当时写了一个demo,后来就没进行了。
原来的数据都是散着的,我让他按照excel这种格式记录好给我,其实就是将非结构化的数据结构化,便于我后期灵活处理,比如导入数据库或者转换成json的都可以。
当时我先将数据结构化到json文件中了,主要做了图片的地址处理,后面的案例也是用的这个数据,后期不管你是要做卡片展示或者什么都非常方便。
案例2-md文件数据转json
平常出题目,为了方便书写和修改,都是写在石墨文档中的,不过也带来了问题,当内容很多后很难管理,比如我想从里面挑一些题目组成其它的试卷或者作为练习测试用不方便,需要复制来复制去。
想的是将文本数据结构化导出,放到数据库中去,以后直接从数据库里面随意取,如果都打上知识点,难度等标签,那么价值会更大。这个属于内容建设的问题了。
首先我将网页的内容导出md格式。
然后观察md的格式,通过# 的位置对文档进行区域切分,分出所有题目,接着从每道题里面抽出题目,选项,解析以及答案。
最后保存到json文件中,即完成文档数据到结构化数据的转换。
案例3-题库管理
收集了很多python的练习题,为了更好的把它们利用起来,一直就想做个管理的工具,之前搞了一个网页版的,原本想放服务器上去的,感觉太重,重新搞了一个GUI的版本,界面还是我网上找的C++版本的,改成了python的。
有了下面的界面,我平常有题目直接从这里放进去就可以了,使用起来更方便,不过主要麻烦的还是题库内容的建立,打标签产内容是个慢慢积累的过程。
为了把各种各样的数据进行转换,我写了各种转换的文件。