智能校对-中英文文本纠错的算法原理是什么？

编辑：pitaya02 日期：2020-09-08

现在，纠错算法被分成两个方向：基于规则的，深度模型的

规则解析思想

中文版的纠错分两步，第一步是检错，第二步是纠错；

误测部分首先通过拼接中文分词器进行误测，因为句子中包含了误测词语，因此误测结果往往会出现误测的情况，这样就可以从字粒度和词粒度两个方面进行误测，将两种粒度的误测结果进行整合，形成误测位置候选；

“纠错”部分，用音似、形似词典替换所有纠错位置的词，然后通过语言模型计算句子混乱度，对所有纠错结果进行比较排序，得出“纠错”最优词。

深层模型求解思想

端对端深度模型避免了人工特征提取，减少了人工工作量， RNN序列模型具有很好的文本任务拟合能力，rnn_attention在英文文本纠错竞赛中取得了第一名，证明应用效果良好；

CRF将计算全局最优输出节点的条件概率，检测句子中特定类型的错误，根据整句判断错误，阿里参赛2016中文语法纠错任务获得第一名，证明应用效果良好；

使用encoder-decoder结构解决序列转换问题的seq2seq模型目前在序列转换任务中(如机器翻译、对话生成、文本摘要、图像描述等)应用最广，效果最好。

火龙果智能写作是全球第一款中英双语语法检查校对产品，运用火龙果智能写作技术进行错别字文本校对，除错别字校对以外，还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化，才能更好的应对这个时代