免费提供中国互联网词库服务

名称: /pennyliang/ciku

地址: https://github.com/pennyliang/ciku

fork: 101    star: 502    开发语言:

项目简介: 中国互联网词库,包含脏话和色情词库

词库,顾名思义就是一些词组成的仓库。在实际生活中,经常会使用到各种词库。

当在做网站 seo 优化的时候,就需要使用到关键词库,因为关键词会影响到网站的排名,从而影响到网站的流量。所以利用好关键词库,可以让运营工作更有成效。

做自然语言处理时,停用词通常被用来提升文本特征的质量,或者降低文本特征的维度。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词),常用的中文停用词库有:
  • 中文停用词
  • 哈工大停用词表
  • 百度停用词表
  • 四川大学机器智能实验室停用词库
还有一个经常用到的词库是行业词库。行业词库的构成主要为:基本项、结果项、评估项、数据项。行业词库通常被用于  选行业,选细分潜力产品,流量布局,标题制作。通过行业词库,不仅可以快速了解行业内容,提高运营能力,同时也有助于建立一套比较系统的运营体系。

从上面的介绍可以看到,词库具有非常大的作用。

ciku 是一个开源项目,免费提供中国互联网词库服务,目前词库主要收集中国互联网脏话词库和色情词库,仅限商业和个人永久免费使用,词库收录词非常丰富。对于有数据处理方面需要或者网站运营的同学可以使用

免费提供中国互联网词库服务

更多内容,可以到 github 观看:

https://github.com/pennyliang/ciku

END

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...