中文nlp应用(数据、模型、训练、推理），开箱即用，从0到NLP-武穆逸仙 In July 2025

名称: yuanzhoulvpi2017/zero_nlp

地址: https://github.com/yuanzhoulvpi2017/zero_nlp

fork: 73 star: 413 开发语言: Jupyter Notebook

简介: 中文 nlp 应用(数据、模型、训练、理)

最近网上很多的 nlp 项目都是基于英文的，无论是 chatGpt 还是 stable diffusion 图片生成，对中文的支持都不太友好，zero_nlp 注重中文 nlp 的建设，开源了多个中文 nlp 应用，包括中文文本分类，图片生成等，并且提供了训练数据，保证了从 0 训练出相应的模型。

特点

包含的项目

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP

流程图解

数据流程通过图解的形式表达出来是最清楚的，因此作者尽可能地把每一个任务都图解出来。

文本分类数据图解

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP

中文 clip

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP 图像生成中文文本

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP

vit 源码

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP

接下来我们进入其中一个项目看下其中的具体的内容，以chinese_gpt2为例。

项目介绍

安装项目依赖

pip install -r requirements.txt

由于requirements.txt中没有添加pytorch，所以还需要单独安装。

数据

数据来源

数据格式

数据其实就是一系列文件夹?，然后每一个文件夹里面有大量的文件，每一个文件都是.csv格式的文件。其中有一列数据是content每一行的content就代表一句话,截图如下

中文 nlp 应用(数据、模型、训练、推理），开箱即用，从 0 到 NLP

代码

⚙️训练代码

现在训练一个 gpt2 代码，其实很简单的。抛开处理数据问题，技术上就三点:tokenizer、gpt2_model、Trainer
tokenizer使用的是bert-base-chinese ，然后再添加一下bos_token、eos_token、pad_token。
gpt2_model使用的是gpt2，这里的 gpt2 是从 0 开始训练的。而不是使用别人的预训练的gpt2模型。
Trainer训练器使用的就是transformers的Trainer模块。（支撑多卡并行，tensorboard 等，都写好的，直接调用就行了，非常好用）