pycorrector

https://github.com/shibing624/pycorrector

中文文本纠错工具。音似、形似错字（或变体字）纠正，可用于中文拼音、笔画输入法的错误纠正。python3开发。

Guide

Question
Solution
Feature
Evaluate
Install
Usage
Deep Model Usage
Dataset
Custom Language Model
Reference

Question

中文文本纠错任务，常见错误类型包括：

谐音字词，如配副眼睛-配副眼镜
混淆音字词，如流浪织女-牛郎织女
字词顺序颠倒，如伍迪艾伦-艾伦伍迪
字词补全，如爱有天意-假如爱有天意
形似字错误，如高梁-高粱
中文拼音全拼，如 xingfu-幸福
中文拼音缩写，如 sz-深圳
语法错误，如想象难以-难以想象

当然，针对不同业务场景，这些问题并不一定全部存在，比如输入法中需要处理前四种，搜索引擎需要处理所有类型，语音识别后文本纠错只需要处理前两种，
其中’形似字错误’主要针对五笔或者笔画手写输入等。本项目重点解决其中的谐音、混淆音、形似字错误、中文拼音全拼、语法错误带来的纠错任务。

Solution

规则的解决思路

中文纠错分为两步走，第一步是错误检测，第二步是错误纠正；
错误检测部分先通过结巴中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样从字粒度和词粒度两方面检测错误，
整合这两种粒度的疑似错误结果，形成疑似错误位置候选集；
错误纠正部分，是遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。

PS：友源码解读

深度模型的解决思路

端到端的深度模型可以避免人工提取特征，减少人工工作量，RNN序列模型对文本任务拟合能力强，rnn_attention在英文文本纠错比赛中取得第一名成绩，证明应用效果不错；
CRF会计算全局最优输出节点的条件概率，对句子中特定错误类型的检测，会根据整句话判定该错误，阿里参赛2016中文语法纠错任务并取得第一名，证明应用效果不错；
Seq2Seq模型是使用Encoder-Decoder结构解决序列转换问题，目前在序列转换任务中（如机器翻译、对话生成、文本摘要、图像描述）使用最广泛、效果最好的模型之一；
BERT/ELECTRA/ERNIE/MacBERT等预训练模型强大的语言表征能力，对NLP届带来翻天覆地的改变，海量的训练数据拟合的语言模型效果无与伦比，基于其MASK掩码的特征，可以简单改造预训练模型用于纠错，加上fine-tune，效果轻松达到最优。

Feature

模型

kenlm：kenlm统计语言模型工具，规则方法，语言模型纠错，利用混淆集，扩展性强
deep_context模型：参考Stanford University的nlc模型，该模型是参加2014英文文本纠错比赛并取得第一名的方法
Seq2Seq模型：在Seq2Seq模型加上attention机制，对于长文本效果更好，模型更容易收敛，但容易过拟合
ConvSeq2Seq模型：基于Facebook出品的fairseq，北京语言大学团队改进ConvS2S模型用于中文纠错，在NLPCC-2018的中文语法纠错比赛中，是唯一使用单模型并取得第三名的成绩
transformer模型：全attention的结构代替了lstm用于解决sequence to sequence问题，语义特征提取效果更好
BERT模型：中文fine-tuned模型，使用MASK特征纠正错字
ELECTRA模型：斯坦福和谷歌联合提出的一种更具效率的预训练模型，学习文本上下文表示优于同等计算资源的BERT和XLNet
ERNIE模型：百度公司提出的基于知识增强的语义表示模型，有可适配中文的强大语义表征能力。在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上超越世界领先技术
MacBERT模型：来自哈工大SCIR实验室2020年的工作，改进了BERT模型的训练方法，使用全词掩蔽和N-Gram掩蔽策略适配中文表达，和通过用其相似的单词来掩盖单词，从而缩小训练前和微调阶段之间的差距

错误检测

字粒度：语言模型困惑度（ppl）检测某字的似然概率值低于句子文本平均值，则判定该字是疑似错别字的概率大。
词粒度：切词后不在词典中的词是疑似错词的概率大。

错误纠正

通过错误检测定位所有疑似错误后，取所有疑似错字的音似、形似候选词，
使用候选词替换，基于语言模型得到类似翻译模型的候选排序结果，得到最优纠正词。

思考

现在的处理手段，在词粒度的错误召回还不错，但错误纠正的准确率还有待提高，更多优质的纠错集及纠错词库会有提升，我更希望算法上有更大的突破。
另外，现在的文本错误不再局限于字词粒度上的拼写错误，需要提高中文语法错误检测（CGED, Chinese Grammar Error Diagnosis）及纠正能力，列在TODO中，后续调研。

Demo

http://42.193.145.218/product/corrector/

Evaluate

查看评估结论

提供评估脚本pycorrector/utils/eval.py和评估执行脚本examples/evaluate_models.py，该脚本有两个功能：

构建评估样本集：评估集pycorrector/data/eval_corpus.json, 包括字粒度错误100条、词粒度错误100条、语法错误100条，正确句子200条。用户可以修改条数生成其他评估样本分布。
计算两个数据集的纠错准召率：采用保守计算方式，简单把纠错之后与正确句子完成匹配的视为正确，否则为错。

测试环境：

机器：linux(centos7) 线上机
CPU：28核 IntelXeonGold 5117 CPU @ 2.00GHz
GPU：Tesla P40，显存 22919 MiB(22 GB)
内存：251 GB

数据集	模型	cpu/gpu	准确率	召回率	每百条预测时长（秒）	QPS
sighan_15	rule	cpu	17.98%	15.37%	11	9
sighan_15	bert	gpu	37.62%	36.46%	95	1.05
sighan_15	ernie	gpu	29.70%	28.13%	102	0.98
sighan_15	macbert	gpu	63.64%	63.64%	2	50
corpus500	rule	cpu	48.60%	28.13%	11	9
corpus500	bert	gpu	58.60%	35.00%	95	1.05
corpus500	ernie	gpu	59.80%	41.33%	102	0.98
corpus500	macbert	gpu	56.20%	42.67%	2	50

Install

全自动安装：pip install pycorrector
半自动安装：

通过以上两种方法的任何一种完成安装都可以。如果不想安装依赖包，直接使用docker拉取安装好的部署环境即可。

安装依赖

docker使用

后续调用python3使用即可，该镜像已经安装好kenlm、pycorrector等包，具体参见Dockerfile。

使用示例：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2ngSbsRv-1636205742536)(docs/git_image/docker.png)]

kenlm安装

安装kenlm-wiki

其他库包安装

Usage

文本纠错

示例base_demo.py

output:

规则方法默认会从路径加载kenlm语言模型文件，如果检测没有该文件，则程序会自动联下载。当然也可以手动下载模型文件(2.8G)并放置于该位置。

查看更多使用说明

错误检测

示例detect_demo.py

output:

返回类型是, ，索引位置以0开始。

关闭字粒度纠错

示例disable_char_error.py

output:

上例中发生误纠，如下代码关闭字粒度纠错：

output:

默认字粒度、词粒度的纠错都打开，一般情况下单字错误发生较少，而且字粒度纠错准确率较低。关闭字粒度纠错，这样可以提高纠错准确率，提高纠错速度。

默认方法的参数为，即打开错字纠正，这种方式可以召回字粒度错误，但是整体准确率会低；

如果追求准确率而不追求召回率的话，建议将设为，仅使用错词纠正。

加载自定义混淆集

通过加载自定义混淆集，支持用户纠正已知的错误，包括两方面功能：1）错误补召回；2）误杀加白。

示例use_custom_confusion.py

output:

具体demo见example/use_custom_confusion.py，其中的内容格式如下，以空格间隔：

方法的参数为用户自定义混淆集文件路径。

加载自定义语言模型

默认提供下载并使用的kenlm语言模型文件是2.8G，内存较小的电脑使用程序可能会吃力些。

支持用户加载自己训练的kenlm语言模型，或使用2014版人民日数据训练的模型，模型小（140M），准确率低些。

示例load_custom_language_model.py，其中people2014corpus_chars.klm(密码o5e9)是自定义语言模型文件。

output:

英文拼写纠错

支持英文单词的拼写错误纠正。

示例en_correct_demo.py

output:

中文简繁互换

支持中文繁体到简体的转换，和简体到繁体的转换。

示例traditional_simplified_chinese_demo.py

output:

命令行模式

支持批量文本纠错

case：

输入文件：；输出文件：；关闭字粒度纠错；打印详细纠错信息；纠错结果以间隔

Deep Model Usage

安装依赖

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

中文文本纠错工具推荐:pycorrector

pycorrector

Question

Solution

规则的解决思路

深度模型的解决思路

Feature

模型

错误检测

错误纠正

思考

Demo

Evaluate

测试环境：

Install

安装依赖

Usage

Deep Model Usage

安装依赖

相关推荐