Chinese-poetry 是本周 Github Trending 热门项目,截至 2 月 7 日,该项目已经获得了 2.5k 个「star」以及 199 个「fork」。
该诗词数据库包含5.5万首唐诗、26万首宋诗和 2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人,数据均来源于互联网。
数据库作者 Jackey Gao 认为,古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的,而电子版方便拷贝,所以此开源数据库诞生了。你可以用此数据做任何有益的事情,作者也可以帮助你。
古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过一个星期。2017年新加入全宋词,全宋词爬取过程及数据分析:https://jackeygao.io/words/crawl-ci.html。
Github 主页:https://github.com/chinese-poetry/chinese-poetry 数据库官方页面:http://shici.store/ 作者个人网站:https://jackeygao.io/
一些简单的高频分析
唐诗高频词 | 唐诗作者作品榜 |
---|---|
宋诗高频词 | 宋诗作者作品榜 |
宋词高频词 | 宋词作者作品榜 |
两宋喜欢的词牌名 |
---|
古诗数据分发采用繁体字的分组 JSON 文件,保留繁体能更大程度地保存原数据。宋词数据分发采用 sqlite 数据库,使用简体字(无原因,采集源就是简体,如需繁体请自行转换)。
[
{
"strains": [
"平平平仄仄,平仄仄平平。",
"仄仄平平仄,平平仄仄平。",
"平平平仄仄,平仄仄平平。",
"平仄仄平仄,平平仄仄平。"
],
"author": "太宗皇帝",
"paragraphs": [
"秦川雄帝宅,函谷壯皇居。",
"綺殿千尋起,離宮百雉餘。",
"連甍遙接漢,飛觀迥凌虛。",
"雲日隱層闕,風煙出綺疎。"
],
"title": "帝京篇十首 一"
},
... 每单个JSON文件1000条唐诗记录.
]
[
{
"name": "太宗皇帝",
"desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"
},
...]