智能校对-中英文文本纠错的算法原理是什么?
编辑:pitaya02 日期:2020-09-08
现在,纠错算法被分成两个方向:基于规则的,深度模型的
规则解析思想
中文版的纠错分两步,第一步是检错,第二步是纠错;
误测部分首先通过拼接中文分词器进行误测,因为句子中包含了误测词语,因此误测结果往往会出现误测的情况,这样就可以从字粒度和词粒度两个方面进行误测,将两种粒度的误测结果进行整合,形成误测位置候选;
“纠错”部分,用音似、形似词典替换所有纠错位置的词,然后通过语言模型计算句子混乱度,对所有纠错结果进行比较排序,得出“纠错”最优词。
深层模型求解思想
端对端深度模型避免了人工特征提取,减少了人工工作量, RNN序列模型具有很好的文本任务拟合能力,rnn_attention在英文文本纠错竞赛中取得了第一名,证明应用效果良好;
CRF将计算全局最优输出节点的条件概率,检测句子中特定类型的错误,根据整句判断错误,阿里参赛2016中文语法纠错任务获得第一名,证明应用效果良好;
使用encoder-decoder结构解决序列转换问题的seq2seq模型目前在序列转换任务中(如机器翻译、对话生成、文本摘要、图像描述等)应用最广,效果最好。
火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。
火龙果智能写作官网https://www.mypitaya.com
积极拥抱变化,才能更好的应对这个时代