前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python 结构化保存数据

python 结构化保存数据

作者头像
叶子陪你玩
发布2022-04-04 16:20:33
1K0
发布2022-04-04 16:20:33
举报

最近重新写爬虫的课程,发现有些以前爬过的网站都消失了,到处找可爬的网站还有案例,收获不多,除了自建教学网站,想要找一些稳定,有趣且有一定实用价值的爬虫项目网站太难了。

业余时间除了自己学习,也做了几个小案例,给大家分享一下:

案例一:单词测试工具

这个案例是之前的一个案例python 模拟单词测试(2)改写的,稍微做了一些优化。

案例想法其实是胡老师提供的,原本是让我做一个英语测试的网站的, 当时写了一个demo,后来就没进行了。

原来的数据都是散着的,我让他按照excel这种格式记录好给我,其实就是将非结构化的数据结构化,便于我后期灵活处理,比如导入数据库或者转换成json的都可以。

当时我先将数据结构化到json文件中了,主要做了图片的地址处理,后面的案例也是用的这个数据,后期不管你是要做卡片展示或者什么都非常方便。

案例2-md文件数据转json

平常出题目,为了方便书写和修改,都是写在石墨文档中的,不过也带来了问题,当内容很多后很难管理,比如我想从里面挑一些题目组成其它的试卷或者作为练习测试用不方便,需要复制来复制去。

想的是将文本数据结构化导出,放到数据库中去,以后直接从数据库里面随意取,如果都打上知识点,难度等标签,那么价值会更大。这个属于内容建设的问题了。

首先我将网页的内容导出md格式。

然后观察md的格式,通过# 的位置对文档进行区域切分,分出所有题目,接着从每道题里面抽出题目,选项,解析以及答案。

最后保存到json文件中,即完成文档数据到结构化数据的转换。

案例3-题库管理

收集了很多python的练习题,为了更好的把它们利用起来,一直就想做个管理的工具,之前搞了一个网页版的,原本想放服务器上去的,感觉太重,重新搞了一个GUI的版本,界面还是我网上找的C++版本的,改成了python的。

有了下面的界面,我平常有题目直接从这里放进去就可以了,使用起来更方便,不过主要麻烦的还是题库内容的建立,打标签产内容是个慢慢积累的过程。

为了把各种各样的数据进行转换,我写了各种转换的文件。

经过这几个案例的折腾,我开始发现很多内容其实都可以将其结构化保存下来,这样以后你要展示,只要从数据库中提取数据,改改外壳,就可以以不同的形式展示,同时原始核心数据又得以保存下来。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子陪你玩编程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档