智能写作-如何评价人工智能创作?

编辑:pitaya02        日期:2020-12-19

我们把一个图表放在屏幕的中央。写作诗歌时,我们通常把图片作为视觉输入,从图片中提取或扩充一些关键词,然后把这些关键词梳理成诗歌。如果图片中的关键字已经确定,我们该如何制作不同的诗歌进行比较?火龙果智能写作

上面的四首诗是由4个运算符组成的。这4首诗的分数是1-5分。例如打3分的标准就是字迹流畅,那么,如果字迹有误或晦涩难懂,就酌情减分;如果有一两句话比较精彩,就酌情加分。火龙果智能写作

正如图中所示,算法从图片中提取“城市”、“美丽”和一些扩展的关键字,并将它们写成诗歌。通过学习,我们发现: AI最常使用的形容词是“好”,当我们遇到单词“城市”时。假如一个人写了一首类似的诗,每个人都会觉得这不是创作,而是“复制,粘贴”,火龙果智能写作

因此,我们在评价诗歌创作的时候,一般都是从创作的角度来评价诗歌是否通畅连贯,是否富于想象,而往往忽略了另外一个因素:即诗歌是否具有创造性?

通过调查,我们发现人们很早以前就在讨论这个问题了。它们将“创新”分为两类:第一类是相对于过去的诗集或训练集是否具有创造性(Novelty);第二类是相对于自己所写的诗歌是否具有创造性(Diversity)。火龙果智能写作

本文将从 Novelty (新奇)和

Diversity (多样化)两个角度来审视诗歌的创新。

1)Novelty

诺弗尔蒂是一个被广泛采用的标准,其主要内容是:与训练数据进行比较。训练集设置好之后,我们对比一下N-gram,看看有多少词出现在之前的训练集中,有多少词是新搭配。火龙果智能写作

2)Diversity

自我感觉就是和自己比较。例如,如果给出的关键词是“城市”,你可以产生多少不同的词汇。

通过试验,我们发现这两个指标和 Human Rating (人为评级)有很大不同。蓝线是 Human Rating的结果,橙线是 Diversity的结果,绿线是 Novelty的结果。

为什么会有 Novelty, Diversity和 Human Rating之间的相关性为负?理由也许是:在人的眼中,有些诗写得很好,但不够新颖,有些诗可能是背出来的,而有些诗是新的,可能不太通顺,因此在 Human Rating里的分数不高。在保证诗歌的一致性和创造性的同时,我们希望能找到一个平衡。

从事小冰诗歌创作时,我遇到了一个问题:用户可能会重复上传一幅图片,然后看看 AI能写出什么样不同的诗歌。即,生成系统是一个不确定的系统:输入不变,但期望输出会有所不同。此时,我们发现:以前的模型在进行判断时,往往会选择最优的判断结果(One-Best),而最优的判断结果往往不能代表系统实际应用的结果。火龙果智能写作

如果有足够的资源,我们可以让系统随机地产生多首诗,然后计算出所有诗的平均分数,相当于多次采样,结果比较接近实际应用的效果。

如果你随机地选择了不同系统,那么One-Random和更理想的Average-Random之间的相关性大于0.9。火龙果智能写作

这就是说,当你做一个不确定的系统时,不要用 best来比较,而要用 random的结果来比较,用 random的结果来比较,会更接近实际情况。


 火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。火龙果错别字检查

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代


 

语法检查-5个写邮件常犯的语法错误