智能校对-AI人工智能写作的发展现状及机遇挑战
编辑:pitaya02 日期:2020-09-03
日前,全国两会上在中山东台举行的一次新闻发布会引起了广泛关注。人工智能与新闻写作的融合早在10年前就开始了,国外媒体也开始尝试将其商业化,随着国内人工智能产业的迅猛发展,智能写作、机器阅读、智能审核等逐渐进入到越来越多的企业和办公人员的视野。
作为信息在人与人、企业与企业之间传递的主要方式,阅读和写作的发展现状如何?将来会带来什么样的机会呢?因此,达观数据副总裁贾学锋与张江新媒体《你好张江》就当前国内 AI+读写发展现状及机遇挑战进行了交流。
角色简介
贾学锋:现在是达观数据的副总裁,负责达观数据 AI项目的实施,客户需求理解和咨询方案设计,以及基于自然语言理解、知识图谱、搜索和推荐等技术的人工智能产品设计。入主达观之前,曾在 SAP中国研究院、阿里巴巴、万达网络集团从事人工智能算法研究、产品设计及商业化等相关工作。
01
你如何看待机器人的写作事件?
贾学锋:写作机器人是人工智能的一个重要发展方向,它在许多场景中都能代替人类工作。但是写作是一个非常复杂的创作过程,就目前的科技发展状况而言,机器在很短的时间内就无法满足这个要求。结果是,短时间内,写作机器人无法完全替代人类的工作。举出一个简单的例子,在我们达观官网上,有智能作诗、智能写对联等功能,这些功能都是我们的机器在阅读了大量的古诗文对联之后,根据我们的 NLP分析结果,根据“平仄”规则自动生成的。但我们给机器读大量的小说,机器也是无法写出像《流浪地球》这样的小说的。
您可能会说,如今网上出现了许多关于写作机器人的新闻,如写作新闻稿,写作学生作业等等,这种写作能力在我们业界看来只是一个人工智能方面很浅的应用。就拿地震新闻来说,如果我们想用机器编写地震新闻稿,我们首先需要定义一个新闻稿模板,如下:
在20 xx年 xx月 xx日(新闻发布时间),根据 xxxx (发布者)的信息, xx (地震地点) xx (地震时间)发生了 x.x级(震级)地震。现在还没有人员伤亡和财产损失的报道/目前地震已造成 xx人伤亡,直接经济损失 xx万元。有消息称,这次地震发生在北京时间 xx日 xx时 xx分,震中为南纬x. xx度,东经x. xx度,震源深度为 x. xx公里。
当像这样的新闻稿被确定后,当地震发生时,我们的地震监测设备会将监测到的数据,也就是上面的下划线上的内容,填入相应的字段,新闻会在一分钟内产生,在经过人员审核后,可以对外发布。同样的情况也发生在足球新闻报道比赛结果、极端天气等方面。如果这些场景中的信息是由人写的,我们可以看到,这也是一些简单的,重复的工作。因此,对于现在写作机器人的应用场景来说,的确可以在这些场景中替代人类完成大量重复的事务。
但是人类与机器的一个重要区别是人类的创造力。创作同音乐、绘画的创作一样,都属于创作的过程。在本文中,我们以译文为例,看看以下段落:
You say that you love rain,
but you open your umbrella when it rains...
You say that you love the sun,
but you find a shadow spot when the sun shines...
You say that you love the wind,
but you close your windows when wind blows...
This is why I am afraid,
You say that you love me too...
通常,我们由人和机器来完成翻译工作,翻译结果如下:
“你说爱下雨,
但下雨时,你却撑着伞;
您说您爱阳光,
可是当阳关播撒的时候,你却藏在了阴凉处;
您说您爱风,
可是当清风拂面,你却把窗子关上。
因此我非常害怕,
也是因为你说过喜欢我。
但是下列翻译方法基本上是机器无法实现的:
您说烟雨微尘,远看兰亭;
后轻揽婆娑,深遮霓裳。
春光烂漫,你说的是绿袖红香;
后内掩西楼,静立卿左右。
您说的是轻风细雨,醉卧思量;
其后掩掩门窗,漫漫成帐。
您讲的柔肠情丝,如何相忘;
但我的眼波却转了,兀自成霜。
从这里我们可以看出机器与人的区别,人在翻译的过程中加入了对诗歌意境的理解和自己的情感,这种理解方式与人自身个体在语言方面的天赋、造诣、自身修养、生活环境等都有密切的关系。机器在这些方面不可能在短时间内达到人类的水平。
总而言之,写作机器人是一种很有意义的产品,可以解放人类的劳动,使人类在更适合的领域发挥其价值。同时期的写作机器人不能代替人,它要和人一起长时间地工作,在写作中发挥各自的作用,提高人的效率。
02
这些有趣的 AI+应用除了博关注度,你认为它们的实际价值在哪里?
贾学锋:伟大的物理学家霍金,死于2018年,他的三大预言之一,就与人工智能技术密切相关:“彻底发展人工智能将有可能毁灭人类”。在此,我们并不危言耸听,但随着科技的不断发展,机器经过不断学习,已经可以开始模仿人类的思维方式,之前备受关注的 AI+棋类、辩论等都显示出了这种趋势。
与此同时,除了这些有趣的应用外,人工智能还为各行各业带来了便利,包括我们的日常生活。举出一些简单的例子:
一、我们介绍的文本智能审核系统,能够帮助财务人员、法务人员快速地从大量文本中提取出他们所关注的信息,节约了阅读时间,提高了工作效率。使他们有更多的时间可以投入到更有创意、更有意义的工作中去。
另外,现在流行的 chatbot,智能客服,通过使用自然语言处理和知识图谱,建立一个能够与人进行交流的客户服务系统,可以帮助包括电商在内的服务密集型企业提高售后服务质量,并节省人力客服成本。
三、还有许多商业场景可以使用人工智能技术来帮助我们提高工作效率,比如智慧医疗、智能安全。
不仅仅是在 toB领域,在 toC领域,人工智能也慢慢影响着我们的生活,包括智能家居、智能穿戴设备、自动驾驶等等。
随着技术的成熟,新技术的不断涌现,我们也期待着更多更实用的 AI落地场景,给我们的工作和生活带来方便和乐趣。
03
AI能从大量的信息中挑选出有助于补充新知识的内容, AI如何获得这种能力?
贾学锋: AI不仅能对海量数据进行统计计算,还能从海量数据中萃出知识,构建知识网络,然后在此网络中进行类人推理计算。
大数据时代,海量信息的处理不能靠人工,必须依靠计算机实现自动化。原来的做法是人为地设置一些规则,由机器执行,但是有一个特点就是规则太多很难制定,甚至定下的规则也无法根据实际情况灵活改变。利用机器学习、自然语言处理和知识图谱技术可以很好地解决上述问题,其中机器学习是实现计算机智能化的基本方法,尤其是目前的深度学习技术效率更高。
04
David Data在这方面有什么布局,可不可以分享一下技术原理?
贾学锋:达观的愿景是成为文字智能处理专家,为中国乃至世界有文字处理能力的用户提供服务。文字的智能化处理包括 NLU (自然语言理解)和 NLG (自然语言生成),本文对文本的自动生成技术进行了积极的研究和尝试。从广义上讲,文本生成可以分为4种类型:
文字对文字,数据对文字,图像对文字,意义对文字。图片到文字、意义到文字等等都有很多公司在尝试,后者比较困难。David现在把重点放在了前两个方向的商业化上。
1
文字转文字
简单地说,就是一个文本片段,经过修改后,再得到另一个文本片段。具有典型性的有:文本摘要,句子压缩,句子合并,文本复述等。David现在和许多客户都在使用这些功能,比如帮助信息类 App生成文章摘要,让用户更快地判断推荐的文章是否对他们感兴趣。协助有关部门编制各类政策性文件的文摘等。
现有的文本摘要方法主要有抽取法和生成法两种。抽象化是目前常用的一种方法,易于实现还能摘要中的句子,可读性好。这类方法主要包括两个步骤:首先,对文档中的句子进行重要度的计算或排序,然后,选取重要句进行最后总结。将用于 CRF、 HMM、 SVM等,以及目前深入的神经网络技术。
2人
对文本的数据
“数据到文本”生成技术是指根据给定的数字数据生成相关的文本,如基于数字数据生成天气预报文本、体育新闻、金融报道、医学报告等。在文本生成方面,数据生成技术有着很好的应用前景。现在, David正在与一些金融公司和商学院合作,为企业提供股评,公司基本面分析,以及一些特定主题的业务研究,例如从小米手机的各种市场文章中,为企业提供市场策略的研究。国内在这方面的研究并不多,不仅仅是技术层面的事情,更多的是要与分析方法相结合才能做好。
目前多采用基于人为模板,将所需数据填充到写好的模板中来产生数据。因为所使用的模板比较固定,所以所产生的内容会比较相似,不生动。如今,我们将更多尝试结合模板技术、基于 NN的技术以及强化学习等多种方法来服务不同的业务场景。当前对 NLG的评估还不够成熟,这是制约 NLG发展的一个重要原因,如果有更好的评估方法,或者有一套行业公认的高质量的数据,相信 NLG会迅速发展。
05
目前, AI+阅读写作主要应用在哪些领域?有什么用途?
贾学锋:可以说,任何一个与文字打交道的行业都可以用 AI+来进行读写。
一、涉及到与文字最密切相关的产业
在政府领域,每年政府都有大量的文件阅读和撰写工作,例如每年都要起草各种政府报告供与会和各界人士学习,少则几千字,多则几万字,据统计,2017年两会政府工作报告全文高达1.86万字,全国各界人士据此来学习领会政府会议的精神,这些文件的撰写和阅读涉及大量的人力工作,如果政府报告先通过 AI技术编写,再由人力进行样式校验,在阅读方面,通过 AI技术对文件核心要素进行自动分析,这将大大提高政府部门的工作效率;除此之外,法律行业也是如此。
二是涉及大量重复劳力的工业
例如金融业,一般会把金融业分成银行、证券、保险、基金四大类,以证券业为例,券商会涉及大量不同类型的文件处理,如债券募集说明书,公司发债都需要提交债券募集说明书并经过严格的审核,才能通过并进行发债,这里面涉及债券募集说明书的编写和审核,以审核为例从一开始就到了错别字和格式审核再到数据一致性,最后到数据计算错误,最后到基于业务层次的完备性审核方面,都会涉及到,审核原理其实就是通过阅读理解文件所表达的意思而进行相关工作。
与写作相比,我们人类的阅读速度要快得多,与当前 AI+阅读技术相比, AI+阅读技术也更加成熟,我们现在面临的 AI+阅读写作在行业中的应用还只是沧海一粟,随着 AI技术的不断发展,行业需求不仅激发了它们的结合会越来越紧密,我坚信未来 AI+阅读写作在行业中会有更广阔的空间。
火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。
火龙果智能写作官网https://www.mypitaya.com
积极拥抱变化,才能更好的应对这个时代