最全中华古诗词数据库,接近5.5万首唐诗,加26万宋诗,附带爬虫脚本

名称: /chinese-poetry/chinese-poetry

地址: https://github.com/chinese-poetry/chinese-poetry

fork: 8,358    star: 40,920    开发语言: JavaScript

项目简介: The most comprehensive database of Chinese poetry 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗. 两宋时期 1564 位词人,21050 首词。

chinese-poetry 包含了 5.5 万首唐诗26 万首宋诗2.1 万首宋词,还有其他一些古典文集。同时还收录了古诗词作者,包括宋两朝近 1.4 万名诗人,和两宋时期 1.5 千名词人
如此庞大的数据量,称其为最全的中华古典文集数据库, 也就是理所当然的事情。

最全中华古诗词数据库,接近 5.5 万首唐诗,加 26 万宋诗,附带爬虫脚本

为什么要做这个仓库?

古诗是中华民族乃至全世界的瑰宝,也深深烙在了每个中国人的灵魂中。可能某个场景下,随口就能来两句诗词,比如金榜题名或者中了彩票 ,就可以来句“春风得意马蹄疾,一日看尽长安花”,或者好友分别之后,长时间未能再次相见,“桃李春风一杯酒,江湖夜雨十年灯”,更能表达出此时的心境。

最美不过古诗词。因此我们应该将这些瑰宝传承下去,让更多的人看到这些宝藏。虽然这些古典文集,部分已经有了纸质书,但是从某种意义上来说,这些庞大的文集离我们很近,又很遥远。虽然书可能就在傍边,却没有多余的精力去阅读,只能感叹句“有余于心,而力有所不逮”。

在信息化的时代中,电子版更加方便阅读和共享,所以 chinese-poetry 开源数据库诞生了。chinese-poetry 数据库通过 JSON 格式分发,也方便进行二次加工利用。

最全中华古诗词数据库,接近 5.5 万首唐诗,加 26 万宋诗,附带爬虫脚本

庞大的数据量,可以用来做什么? 

数据分析最难的不是各种分析方法或者分析工具,而是没有数据或者数据不足。有了这些庞大的古诗词数据量,我们就可以做很多有趣的事情。

我们都知道,作词需要用到词牌名,宋朝有那么多词牌名,那么使用最多的词牌有哪些呢?有了这些庞大的数据量,我们就可以利用jieba 分词、wordcloud 绘制词云图,一目了然地就可以看到“浣溪沙”是使用最多的词牌,“调歌头”排在第二。

最全中华古诗词数据库,接近 5.5 万首唐诗,加 26 万宋诗,附带爬虫脚本

李白,杜甫是我们最熟悉的唐代诗人,他们创作的诗句,每个人随口都能吟出来两句。比如“十步杀一人,千里不留行。事了拂衣去,深藏功与名”,或者“安得广厦千万间,大庇天下寒士俱欢颜”等。但是唐朝唐诗作品最多的诗人是谁,你知道吗?
大概是“长安米贵,居大不易”典故的主人公了。
 

最全中华古诗词数据库,接近 5.5 万首唐诗,加 26 万宋诗,附带爬虫脚本

基于chinese-poetry 提供的庞大的数据量,还可以制作很多的与诗词有关的应用。目前已经有很多的项目了,比如对诗词解谜小游戏,使用深度学习生成可以创作不同风格诗词的 AI。

最全中华古诗词数据库,接近 5.5 万首唐诗,加 26 万宋诗,附带爬虫脚本

爬虫脚本地址:https://xxrr.top/r/words/crawl-ci.html
 

END

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...