不过这方面还有一个诗词数据更全的Github项目:chinese-poetry/chinese-poetry "最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网. 为什么要做这个仓库? 而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你. 古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析. 数据集合 全唐诗 json 全宋诗 json 全宋词 ci 五代·花间集 wudai 五代·南唐二主词 wudai 论语 lunyu 诗经 shijing 幽梦影 youmengying 四书五经 sishuwujing
上次我们玩了一下自动作诗机:"自动作诗机"上线,代码和数据都是公开的,基于该项目下自带的数据和模型。 不过这方面还有一个诗词数据更全的Github项目:chinese-poetry/chinese-poetry "最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网. 为什么要做这个仓库? 古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析. 数据集合 全唐诗 json 全宋诗 json 全宋词 ci 五代·花间集 wudai 五代·南唐二主词 wudai 论语 lunyu 诗经 shijing 幽梦影 youmengying 四书五经 sishuwujing
提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。
收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等…… 这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。 ? 目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。 ? 这些数据,都来自互联网。如何采集的? 项目发起者也分享了全宋词爬取过程及数据分析。 为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。 围绕着数据库,他也进行了一个初步的词频分析: ? 但这些数据集的应用,远远不止于此。 8大案例展示 在项目中,作者也放上了使用数据集的应用案例。 有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。 ? 而且这些项目,也大都在GitHub上开源了。
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等…… 这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库 目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。 ? 这些数据,都来自互联网。如何采集的? 项目发起者也分享了全宋词爬取过程及数据分析。 为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。 围绕着数据库,他也进行了一个初步的词频分析: ? 但这些数据集的应用,远远不止于此。 8大案例展示 在项目中,作者也放上了使用数据集的应用案例。 有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。 ? 而且这些项目,也大都在GitHub上开源了。
该诗词数据库包含5.5万首唐诗、26万首宋诗和 2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人,数据均来源于互联网。 古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过一个星期。 /jackeygao.io/ 数据分析 一些简单的高频分析 唐诗高频词 唐诗作者作品榜 宋诗高频词 宋诗作者作品榜 宋词高频词 宋词作者作品榜 两宋喜欢的词牌名 数据分发形式 古诗数据分发采用繁体字的分组 JSON 文件,保留繁体能更大程度地保存原数据。 宋词数据分发采用 sqlite 数据库,使用简体字(无原因,采集源就是简体,如需繁体请自行转换)。
唐诗宋词是我们老祖宗留给我们的文学精华。古人以诗词作为载体,来阐述自己内心的离别之情,思乡怀仁之情,国破家亡,怀才不遇等。 看到这里你想要背唐诗宋词?那么多首诗词,我从哪里背起? 我这几天在 github 上乱逛,发现一个收集大量唐诗宋词的数据库 chinese-poetry 。 该数据库收集了唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗。以及两宋时期 1564 位词人,21050 首词。 顺便唠叨几句,难道你只满足背诵这些唐诗宋词?让你脱离 2B 青年队伍,加入到文艺青年之列中? 我们应该有扩展性思维。从 A 联想到 B,再从 B 联想到 C。这么多数据是什么?大数据呀! 拿到这么多数据,我们可以使用它们来做数据分析,挖掘其中的数据价值。 写在最后 我新建一个 Python Web 学习交流 QQ 群,群号:701534112。或者长按以下二维码加群。
唐诗宋词package fortune-zh sudo apt-get install fortune-zh 每30秒显示一首唐诗宋词 watch -n 30 fortune-zh ----
来源:资源搜罗精选 作者:我是好奇仔 本文约400字,建议阅读3分钟 本文为你推荐最全中文诗歌古典文集数据库。 [ 导读 ] 之前在火遍全国的“古诗词大会”中,冠军小姐姐武亦姝让很多国人佩服得五体投地。最近在热播剧《庆余年》中,男主角范闲用古诗词上演的一出精彩大反转,再次让大家见识到了中华古诗词的魅力! 所以今天我们要给大家推荐一个古诗词有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文诗歌古典文集数据库” 。 ? 这个诗词数据库包含了5.5万首唐诗、26万首宋诗和2.1万首宋词,资源相当丰富。数据库中的古诗数据分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些数据基础上,借助文字云向大家展示了唐诗宋词中的高频词汇和作品榜: ? 除此之外,你还可以看到在数据库基础上开发出来的一些相当棒的产品: ? 离线全唐诗 Android ?
导读:之前在火遍全国的“古诗词大会”中,冠军小姐姐武亦姝让很多国人佩服得五体投地。最近在热播剧《庆余年》中,男主角范闲用古诗词上演的一出精彩大反转,再次让大家见识到了中华古诗词的魅力! 所以今天好奇仔要给大家推荐一个古诗词有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文诗歌古典文集数据库” 。 这个诗词数据库包含了5.5万首唐诗、26万首宋诗和2.1万首宋词,资源相当丰富。数据库中的古诗数据分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些数据基础上,借助文字云向大家展示了唐诗宋词中的高频词汇和作品榜: ? 除此之外,你还可以看到在数据库基础上开发出来的一些相当棒的产品: ? 离线全唐诗 Android ? 数据库地址: https://github.com/chinese-poetry/chinese-poetry 有话要说? Q: 你对哪个宝库最感兴趣? 欢迎留言与大家分享
最近在热播剧《庆余年》中,男主角范闲用古诗词上演的一出精彩大反转,再次让大家见识到了中华古诗词的魅力! 所以今天好奇仔要给大家推荐一个古诗词有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文诗歌古典文集数据库” 。 ? 这个诗词数据库包含了5.5万首唐诗、26万首宋诗和 2.1万首宋词,资源相当丰富。数据库中的古诗数据分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些数据基础上,借助文字云向大家展示了唐诗宋词中的高频词汇和作品榜: ? 除此之外,你还可以看到在数据库基础上开发出来的一些相当棒的产品: ? 比如离线全唐诗 Android: ? 数据库地址: https://github.com/chinese-poetry/chinese-poetry ——The End——
因此,作者认为,诗词之精美和数理之严密是可以完美结合的。 既然诗歌的创作是有规律的,那么,通过一定的数据挖掘手段,我们是能够从中发现一些insight的。 经过数据清洗后,最终得诗504,443,占到原数据库的59.1%。以下分别是清洗后的诗歌数据统计结果和部分样例: ? ? 然而,计算机程序不能直接处理字符串形式的文本数据,所以笔者首当其冲的一个步骤就是将诗歌文本数据分词,之后再“翻译”为计算机可以处理的数据形式,这由一个名为“文本向量化”的操作来实现。 基于这个更加完善的诗歌题材分类体系,笔者运行完之后得到58W+行数据,在之前的基础上增加了14W+行数据,数据规模提升明显! 叶嘉莹 《文本数据管理与分析》,翟成祥 《文本数据挖掘》,宗成庆 《古代汉语基础》,吴鸿清 《诗词格律》,王力 《语言的科学》,诺姆.乔姆斯基 《现代汉语词汇学教程》,周荐 《语言的认知研究和计算分析
结合图数据库,把中国古诗词放到图谱里,通过【作者搜索】关联出他所有的诗词,并关联出所有的创作地点,这就形成了一条【诗词巡礼】的旅游路线;通过【地点搜索】关联出当地所有的古诗词创作地,这就形成了一个充满文化气息的诗词城市 圆梦 [一首古诗带来的图数据库大冒险] 古诗大冒险项目实现思路主要是将中国古诗词放到图谱里,诗词的图谱需要包含作者(姓名、朝代、字、号)、诗词(诗词名、内容、创作地址、经度、维度)、城市,其他再包含古代城市和现代城市的映射 数据源,需要涉及到诗词库、百度汉语、旅游网站、坐标提取系统等等;经过数据加工、数据聚合以及图数据库的建模,将数据导入图数据库中,一个简单的诗词图谱就形成了。 最终形成图数据库中需要的几个文件,例如:vertex-诗词.csv、vertex-作者.csv、vertex-城市.csv、edge-诗词-作者.csv、edge-诗词-城市.csv。 其中需要地图的 SDK,结合收集到的坐标,就可以在地图上展示出诗词的创作地点。 [一首古诗带来的图数据库大冒险] 这个项目看似很简单,但暗藏玄机。整个项目实现起来会遇到 2 个难点。
前言 本文将介绍如何增添随机诗词的展示。 之前在很多主题中见过这类设置,正好最近想在站点添加一个留言页,想着内容太过空洞,于是就把随机诗词搬了过来。 <h>念两句诗< value(info); }); </script>
需要注意的是,主题词和上文使用两套独立的编码器,其参数不共享,而在向量序列的拼接时,主题词向量会固定放在前面,这样在解码时解码器可以通过关注度机制自动控制对主题词关注的时机和程度。 对于图三所示的模型结构,在训练时需要构建 {上文诗句,主题词,待预测诗句} 的三元组作为训练数据。首先,我们把所有诗歌拆分并转换成为 {上文诗句,待预测诗句} 的二元组。 然后,从「待预测诗句」中根据 TextRank 算法抽取出最重要的一个单词作为主题词,从而扩展得到 {上文诗句,主题词,待预测诗句} 的三元组数据。 从「待预测诗句」中自动抽取主题词构建训练数据,这样训练得到的模型可以最大程度保证解码时主题词也会被「放置」进生成的诗句中。 论文 Wang et al. 如果要为一位作家写一首诗(例如,Query=冰心),可以通过百度百科挖掘她的作品作为主题词(如《春水》、《繁星》、《往事》);如果要为一个现代名词写一首诗(例如,Query=啤酒),可以挖掘网页、搜索日志等数据
说起他的职业“航天工程师”,似乎和唐诗没有任何关联,日常工作围着数据分析、写程序转,是标准的“程序员”。 节目的热度刺激了他的职业习惯:用数据分析遇到的各类问题,唐诗也包括在内。 跨界回响 “这个数据统计很有趣但还流于简单” 以“前进四”这个程序员的思维,计算机不仅可以分析唐诗,还可以解剖其他时代的文献,梳理时代人物关系。 “前进四”口中的数字史学,据南京大学历史系王涛的论文《挑战与机遇:“数字史学”与历史研究》介绍,早在上个世纪90年代就有了这一概念。 信息技术革命与“大数据”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“数据挖掘”的特长在历史研究中大有可为。
说起他的职业“航天工程师”,似乎和唐诗没有任何关联,日常工作围着数据分析、写程序转,是标准的“程序员”。 节目的热度刺激了他的职业习惯:用数据分析遇到的各类问题,唐诗也包括在内。 更进一步,通过word2vec这个工具,实现词到向量的转换,即所有词可转换成一长串数字。由此,计算机以数字之间的相似度可以简单分析诗句中词与词之间的关联。 “前进四”口中的数字史学,据南京大学历史系王涛的论文《挑战与机遇:“数字史学”与历史研究》介绍,早在上个世纪90年代就有了这一概念。 信息技术革命与“大数据”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“数据挖掘”的特长在历史研究中大有可为。
诗词文学精选 这款小程序有四个界面,主页面详细的根据体裁、作者、年代等划分了不同的专题,方便针对性的阅读。点击热门精选里的更多诗词就可以快速搜索你想要阅读的作品。 ? 词谱中还会根据词牌定格的韵给出例子,非常通俗易懂,是学习作诗作词的好工具。 文学精选一栏里则分为古典小说、精选美文、原创精选三个板块。 ? 「诗词文学精选」小程序使用链接 https://minapp.com/miniapp/1252/ 西窗诗词 这款小程序页面设计中就透着书生气的简朴,首页也是根据不同的主题分了选集、主题、写景、节日、节气等不同板块 诗文界面和历史界面的布局相似,两个页面顶部都有搜索栏,可以根据自己的需要来搜索查询。 ? 诗仙界面是个人主页,布局非常简单,只显示你的吟诵数量、点赞数量、和获得的赞。 ?
今日推荐 今天想推荐的是一个偏文艺的,没有太多的代码性,但是却是圆了我小时候的想法,以前很喜欢古诗词,但是那时候没有互联网,都是通过课本和书籍去查询,现在有了网络不一样了,最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。http://shici.store ? 废话不多说,上地址: https://github.com/chinese-poetry/chinese-poetry 这个仓库包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。 诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。 而且喜爱诗词的小伙伴可以贡献自己的数据,提交到这个项目中,一起扩展。
3.1 数据需求 注意: 1)词典选择 2)分词器选型 3)mapping设置 4)支持的目标维度考量 5)设定插入时间(自定义动态添加,非人工) 3.2 写入需求 注意: 1)特殊字符清洗 2)新增插入时间 根据需求梳理出如下的逻辑架构,实际开发中要谨记如下的数据流向。 4.3 建模梳理 之前也有讲述,这里再强调一下数据建模的重要性。 数据模型支撑了系统和数据,系统和数据支撑了业务系统。 一个好的数据模型: 能让系统更好的集成、能简化接口。 能简化数据冗余、减少磁盘空间、提升传输效率。 兼容更多的数据,不会因为数据类型的新增而导致实现逻辑更改。 能帮助更多的业务机会,提高业务效率。 这里依然推荐:选择ik分词。 ik词典的选择建议:自带词典不完备,网上搜索互联网的一些常用语词典、行业词典如(诗词相关词典)作为补充完善。 数据的预处理环节通过 ingest pipeline实现。设计数据预处理地方:每一篇诗的json写入时候,插入timestamp时间戳字段。
腾讯云数据湖构建(DLF)提供了数据湖的快速构建,与湖上元数据管理服务,帮助用户快速高效的构建企业数据湖技术架构。DLF包括元数据管理、入湖任务、任务编排、权限管理等数据湖构建工具。借助DLF,用户可以极大的提高数据入湖准备的效率,方便的管理散落各处的孤岛数据…...
扫码关注云+社区
领取腾讯云代金券