首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我拿 12年36 套四级真题做了什么?

作者:我爱小詹

这是第 3 篇读者投稿文章 ,欢迎亲爱的读者们踊跃投稿哦 。

不会英语的程序员不是好程序员 ?小詹不敢乱立 flag ,但是我知道的是程序员就喜欢自己动手干些实事 ,比如今天教大家自己动手做个有意思的项目——从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们不来试试吗 ?

程序介绍

这是一个单词频率统计程序 ,基于python3 ,我将往年真题按照词频排序得到了四级词库 :总结出了 5000 个出现频率极高的单词 。

自动批量收集文件中的英语单词 txt (utf-8)

统计排序保存到本地数据库 voca.db

翻译英文得到中文解释

数据库文件提取得到csv表格

在结合到大量的往年 cet-4 真题库的情况下

本软件成为了考试必备词库

希望大家都能轻松过四级

工作流程

settings.py 配置查询文档

work.py 自动分析数据保存至voca.db数据库文件

translate.py 自动打开数据库调用api翻译单词并保存到数据库里

db2csv.py 将数据库文件转换成csv表格文件

具体实现

数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)

读入文件拿到所有单词

剔除 常用单词(is am are do……)

计数

数据库初始化 peewee模块

加入单词到数据库

翻译

提取所有单词到csv

收获成果啦

翻译过程

出现次数最多的简单词

出现次数较少,值得一背的词

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190207B04NKA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券