展开

关键词

【Github】Chinese-poetry: 最全中华古

不过这方面还有一个更全的Github项目:chinese-poetry/chinese-poetry "最全中华古库, 唐宋两朝近一万四千古人, 接近5.5万首唐加26万宋. 最全的中华古典文集库, 包含5.5万首唐、26万首宋和2.1万首宋. 唐宋两朝近1.4万古人, 和两宋时期1.5K人. 来源于互联网. 为什么要做这个仓库? 而电子版方便拷贝, 所以此开源库诞生了. 你可以用此做任何有益的事情, 甚至我也可以帮助你. 古采集没有记录过程, 因为古庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋, 全宋爬取过程及分析. 集合 全唐 json 全宋 json 全宋 ci 五代·花间集 wudai 五代·南唐二主 wudai 论语 lunyu 经 shijing 幽梦影 youmengying 四书五经 sishuwujing

1.3K30

【Github】Chinese-poetry: 最全中华古

上次我们玩了一下自动作机:"自动作机"上线,代码和都是公开的,基于该项目下自带的和模型。 不过这方面还有一个更全的Github项目:chinese-poetry/chinese-poetry "最全中华古库, 唐宋两朝近一万四千古人, 接近5.5万首唐加26万宋. 最全的中华古典文集库, 包含5.5万首唐、26万首宋和2.1万首宋. 唐宋两朝近1.4万古人, 和两宋时期1.5K人. 来源于互联网. 为什么要做这个仓库? 古采集没有记录过程, 因为古庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋, 全宋爬取过程及分析. 集合 全唐 json 全宋 json 全宋 ci 五代·花间集 wudai 五代·南唐二主 wudai 论语 lunyu 经 shijing 幽梦影 youmengying 四书五经 sishuwujing

82420
  • 广告
    关闭

    90+款云产品免费体验

    提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    今日GitHub热榜第一:最全中华古库,收录30多万

    收录5.5万首唐,超过28万首宋,还囊括了经、论语、蒙学等…… 这个名为“chinese-poetry”、号称“最全中文歌古典文集库”的项目,今日登顶GitHub热榜第一。 ? 目前,仓库中一共有10个集,分别是:全唐、全宋、全宋、五代·花间集、五代·南唐二主、论语、经、幽梦影、四书五经、蒙学。 ? 这些,都来自互联网。如何采集的? 项目发起者也分享了全宋爬取过程及分析。 为什么没有古?他也给出了解释,古采集没有记录过程,因为古庞大,目标网站有限制,采集过程经常中断超过了一个星期。 围绕着库,他也进行了一个初步的频分析: ? 但这些集的应用,远远不止于此。 8大案例展示 在项目中,作者也放上了使用集的应用案例。 有基于浏览器的网站,有安卓版的应用“离线全唐”,有简体唐生成(char-RNN),也桌面和相关小程序等等。 ? 而且这些项目,也大都在GitHub上开源了。

    31710

    今日GitHub热榜第一:最全中华古库,收录30多万

    乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 收录5.5万首唐,超过28万首宋,还囊括了经、论语、蒙学等…… 这个名为“chinese-poetry”、号称“最全中文歌古典文集库 目前,仓库中一共有10个集,分别是:全唐、全宋、全宋、五代·花间集、五代·南唐二主、论语、经、幽梦影、四书五经、蒙学。 ? 这些,都来自互联网。如何采集的? 项目发起者也分享了全宋爬取过程及分析。 为什么没有古?他也给出了解释,古采集没有记录过程,因为古庞大,目标网站有限制,采集过程经常中断超过了一个星期。 围绕着库,他也进行了一个初步的频分析: ? 但这些集的应用,远远不止于此。 8大案例展示 在项目中,作者也放上了使用集的应用案例。 有基于浏览器的网站,有安卓版的应用“离线全唐”,有简体唐生成(char-RNN),也桌面和相关小程序等等。 ? 而且这些项目,也大都在GitHub上开源了。

    26820

    一周 Github Trending 热门项目,最全中华古库 | Github 项目推荐

    库包含5.5万首唐、26万首宋和 2.1 万首宋. 唐宋两朝近 1.4 万古人, 和两宋时期 1.5K 人,均来源于互联网。 古采集没有记录过程,因为古庞大,目标网站有限制,采集过程经常中断超过一个星期。 /jackeygao.io/ 分析 一些简单的高频分析 唐高频作者作品榜 宋高频作者作品榜 宋高频作者作品榜 两宋喜欢的牌名 分发形式 古分发采用繁体字的分组 JSON 文件,保留繁体能更大程度地保存原。 宋分发采用 sqlite 库,使用简体字(无原因,采集源就是简体,如需繁体请自行转换)。

    86660

    chinese-poetry:最懂唐

    是我们老祖宗留给我们的文学精华。古人以作为载体,来阐述自己内心的离别之情,思乡怀仁之情,国破家亡,怀才不遇等。 看到这里你想要背唐?那么多首,我从哪里背起? 我这几天在 github 上乱逛,发现一个收集大量唐库 chinese-poetry 。 该库收集了唐宋两朝近一万四千古人, 接近 5.5 万首唐加 26 万宋。以及两宋时期 1564 位人,21050 首。 顺便唠叨几句,难道你只满足背诵这些唐?让你脱离 2B 青年队伍,加入到文艺青年之列中? 我们应该有扩展性思维。从 A 联想到 B,再从 B 联想到 C。这么多是什么?大呀! 拿到这么多,我们可以使用它们来做分析,挖掘其中的价值。 写在最后 我新建一个 Python Web 学习交流 QQ 群,群号:701534112。或者长按以下二维码加群。

    29030

    显示唐

    package fortune-zh sudo apt-get install fortune-zh 每30秒显示一首唐 watch -n 30 fortune-zh ----

    15920

    《庆余年》里范闲背了个,把这个GitHub项目带火了

    来源:资源搜罗精选 作者:我是好奇仔 本文约400字,建议阅读3分钟 本文为你推荐最全中文歌古典文集库。 [ 导读 ] 之前在火遍全国的“古大会”中,冠军小姐姐武亦姝让很多国人佩服得五体投地。最近在热播剧《庆余年》中,男主角范闲用古上演的一出精彩大反转,再次让大家见识到了中华古的魅力! 所以今天我们要给大家推荐一个古有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文歌古典文集库” 。 ? 这个库包含了5.5万首唐、26万首宋和2.1万首宋,资源相当丰富。库中的古分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些基础上,借助文字云向大家展示了唐中的高频汇和作品榜: ? 除此之外,你还可以看到在库基础上开发出来的一些相当棒的产品: ? 离线全唐 Android ?

    28230

    《庆余年》里范闲背了个,把这个GitHub项目带火了

    导读:之前在火遍全国的“古大会”中,冠军小姐姐武亦姝让很多国人佩服得五体投地。最近在热播剧《庆余年》中,男主角范闲用古上演的一出精彩大反转,再次让大家见识到了中华古的魅力! 所以今天好奇仔要给大家推荐一个古有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文歌古典文集库” 。 这个库包含了5.5万首唐、26万首宋和2.1万首宋,资源相当丰富。库中的古分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些基础上,借助文字云向大家展示了唐中的高频汇和作品榜: ? 除此之外,你还可以看到在库基础上开发出来的一些相当棒的产品: ? 离线全唐 Android ? 库地址: https://github.com/chinese-poetry/chinese-poetry 有话要说? Q: 你对哪个宝库最感兴趣? 欢迎留言与大家分享

    25010

    《庆余年》中范闲背了个,把这个Github项目带火了!

    最近在热播剧《庆余年》中,男主角范闲用古上演的一出精彩大反转,再次让大家见识到了中华古的魅力! 所以今天好奇仔要给大家推荐一个古有关的资源宝库,也是GitHub上的一个热门项目——Chinese-poetry ,号称 “最全中文歌古典文集库” 。 ? 这个库包含了5.5万首唐、26万首宋和 2.1万首宋,资源相当丰富。库中的古分发是采用繁体字的分组JSON文件,并按朝代进行分类: ? 作者在这些基础上,借助文字云向大家展示了唐中的高频汇和作品榜: ? 除此之外,你还可以看到在库基础上开发出来的一些相当棒的产品: ? 比如离线全唐 Android: ? 库地址: https://github.com/chinese-poetry/chinese-poetry ——The End——

    38210

    手把手教你用文本挖掘剖析54万首

    因此,作者认为,之精美和理之严密是可以完美结合的。 既然歌的创作是有规律的,那么,通过一定的挖掘手段,我们是能够从中发现一些insight的。 经过清洗后,最终得504,443,占到原库的59.1%。以下分别是清洗后的统计结果和部分样例: ? ? 然而,计算机程序不能直接处理字符串形式的文本,所以笔者首当其冲的一个步骤就是将歌文本,之后再“翻译”为计算机可以处理的形式,这由一个名为“文本向量化”的操作来实现。 基于这个更加完善的歌题材分类体系,笔者运行完之后得到58W+行,在之前的基础上增加了14W+行规模提升明显! 叶嘉莹 《文本管理与分析》,翟成祥 《文本挖掘》,宗成庆 《古代汉语基础》,吴鸿清 《格律》,王力 《语言的科学》,诺姆.乔姆斯基 《现代汉语汇学教程》,周荐 《语言的认知研究和计算分析

    30130

    一首古带来的图库大冒险

    结合图库,把中国古放到图谱里,通过【作者搜索】关联出他所有的,并关联出所有的创作地点,这就形成了一条【巡礼】的旅游路线;通过【地点搜索】关联出当地所有的古创作地,这就形成了一个充满文化气息的城市 圆梦 [一首古带来的图库大冒险] 古大冒险项目实现思路主要是将中国古放到图谱里,的图谱需要包含作者(姓名、朝代、字、号)、名、内容、创作地址、经度、维度)、城市,其他再包含古代城市和现代城市的映射 源,需要涉及到库、百度汉语、旅游网站、坐标提取系统等等;经过加工、聚合以及图库的建模,将导入图库中,一个简单的图谱就形成了。 最终形成图库中需要的几个文件,例如:vertex-.csv、vertex-作者.csv、vertex-城市.csv、edge--作者.csv、edge--城市.csv。 其中需要地图的 SDK,结合收集到的坐标,就可以在地图上展示出的创作地点。 [一首古带来的图库大冒险] 这个项目看似很简单,但暗藏玄机。整个项目实现起来会遇到 2 个难点。

    8430

    Hexo添加两句

    前言 本文将介绍如何增添随机的展示。 之前在很多主题中见过这类设置,正好最近想在站点添加一个留言页,想着内容太过空洞,于是就把随机搬了过来。

    <h>念两句< value(info); }); </script>
    3.在\themes\butterfly\source\css\index.styl中添加以下代码(直接在底部添加): /** 后记 这里调用的是今日API,是一个可以返回一句古名句的接口。 它可以通过图片和 JSON 格式调用。今日 API 根不同地点、时间、节日、季节、天气、景观、城市进行智能推荐。

    7710

    百度NLP | 自动写 PK 古代人:百度「为你写」技术深度揭秘

    需要注意的是,主题和上文使用两套独立的编码器,其参不共享,而在向量序列的拼接时,主题向量会固定放在前面,这样在解码时解码器可以通过关注度机制自动控制对主题关注的时机和程度。 对于图三所示的模型结构,在训练时需要构建 {上文句,主题,待预测句} 的三元组作为训练。首先,我们把所有歌拆分并转换成为 {上文句,待预测句} 的二元组。 然后,从「待预测句」中根 TextRank 算法抽取出最重要的一个单作为主题,从而扩展得到 {上文句,主题,待预测句} 的三元组。 从「待预测句」中自动抽取主题构建训练,这样训练得到的模型可以最大程度保证解码时主题也会被「放置」进生成的句中。 论文 Wang et al. 如果要为一位作家写一首(例如,Query=冰心),可以通过百度百科挖掘她的作品作为主题(如《春水》、《繁星》、《往事》);如果要为一个现代名写一首(例如,Query=啤酒),可以挖掘网页、搜索日志等

    2.1K100

    分析唐朋友圈 白居易最“大V”

    说起他的职业“航天工程师”,似乎和唐没有任何关联,日常工作围着分析、写程序转,是标准的“程序员”。 节目的热度刺激了他的职业习惯:用分析遇到的各类问题,唐也包括在内。 跨界回响 “这个统计很有趣但还流于简单” 以“前进四”这个程序员的思维,计算机不仅可以分析唐,还可以解剖其他时代的文献,梳理时代人物关系。 “前进四”口中的字史学,南京大学历史系王涛的论文《挑战与机遇:“字史学”与历史研究》介绍,早在上个世纪90年代就有了这一概念。 信息技术革命与“大”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“挖掘”的特长在历史研究中大有可为。

    59660

    程序员大智能分析唐朋友圈:李杜关系如何?谁是好基友?

    说起他的职业“航天工程师”,似乎和唐没有任何关联,日常工作围着分析、写程序转,是标准的“程序员”。 节目的热度刺激了他的职业习惯:用分析遇到的各类问题,唐也包括在内。 更进一步,通过word2vec这个工具,实现到向量的转换,即所有可转换成一长串字。由此,计算机以字之间的相似度可以简单分析句中之间的关联。 “前进四”口中的字史学,南京大学历史系王涛的论文《挑战与机遇:“字史学”与历史研究》介绍,早在上个世纪90年代就有了这一概念。 信息技术革命与“大”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“挖掘”的特长在历史研究中大有可为。

    71940

    远离乾隆的「农家乐」审美!这 4 款小程序,带你提升气质带你飞

    文学精选 这款小程序有四个界面,主页面详细的根体裁、作者、年代等划分了不同的专题,方便针对性的阅读。点击热门精选里的更多就可以快速搜索你想要阅读的作品。 ? 谱中还会根牌定格的韵给出例子,非常通俗易懂,是学习作的好工具。 文学精选一栏里则分为古典小说、精选美文、原创精选三个板块。 ? 「文学精选」小程序使用链接 https://minapp.com/miniapp/1252/ 西窗 这款小程序页面设计中就透着书生气的简朴,首页也是根不同的主题分了选集、主题、写景、节日、节气等不同板块 文界面和历史界面的布局相似,两个页面顶部都有搜索栏,可以根自己的需要来搜索查询。 ? 仙界面是个人主页,布局非常简单,只显示你的吟诵量、点赞量、和获得的赞。 ?

    23530

    今日推荐:chinese-poetry

    今日推荐 ‍ 今天想推荐的是一个偏文艺的,没有太多的代码性,但是却是圆了我小时候的想法,以前很喜欢古,但是那时候没有互联网,都是通过课本和书籍去查询,现在有了网络不一样了,最全中华古库, 唐宋两朝近一万四千古人, 接近5.5万首唐加26万宋. 两宋时期1564位人,21050首。http://shici.store ? ‍ 废话不多说,上地址: https://github.com/chinese-poetry/chinese-poetry 这个仓库‍包含 5.5 万首唐、26 万首宋、2.1 万首宋和其他古典文集。 人包括唐宋两朝近 1.4 万古人,和两宋时期 1.5 千古人。来源于互联网。 而且喜爱的小伙伴可以贡献自己的,提交到这个项目中,一起扩展。

    16910

    项目实战 01:将唐三百首写入 Elasticsearch 会发生什么?

    3.1 需求 注意: 1)典选择 2)分器选型 3)mapping设置 4)支持的目标维度考量 5)设定插入时间(自定义动态添加,非人工) 3.2 写入需求 注意: 1)特殊字符清洗 2)新增插入时间 根需求梳理出如下的逻辑架构,实际开发中要谨记如下的流向。 4.3 建模梳理 之前也有讲述,这里再强调一下建模的重要性。 模型支撑了系统和,系统和支撑了业务系统。 一个好的模型: 能让系统更好的集成、能简化接口。 能简化冗余、减少磁盘空间、提升传输效率。 兼容更多的,不会因为类型的新增而导致实现逻辑更改。 能帮助更多的业务机会,提高业务效率。 这里依然推荐:选择ik分。 ik典的选择建议:自带典不完备,网上搜索互联网的一些常用语典、行业典如(相关典)作为补充完善。 的预处理环节通过 ingest pipeline实现。设计预处理地方:每一篇的json写入时候,插入timestamp时间戳字段。

    51510

    相关产品

    • 数据湖构建 DLF

      数据湖构建 DLF

      腾讯云数据湖构建(DLF)提供了数据湖的快速构建,与湖上元数据管理服务,帮助用户快速高效的构建企业数据湖技术架构。DLF包括元数据管理、入湖任务、任务编排、权限管理等数据湖构建工具。借助DLF,用户可以极大的提高数据入湖准备的效率,方便的管理散落各处的孤岛数据…...

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券