本篇文章1622字,读完约4分钟
科学技术日报记者陈曦
随着人工智能的迅速发展,许多app应用了智能评价系统。 但是,背英语读app分数的父母也不少,英语专业8级水平的分数也只有80分。
除了适用于口语语音智能得分外,人工智能还适用于判决书。 但是,最近,据说为美国2万所学校服务的ai教育平台被推翻,“打脸”的是平台搭载的ai阅卷功能,学生们可以通过那个漏洞“裸考”轻松过关。 之所以被学生们钻了“空子”,是因为这个系统只是用关键词评分,学生们只需要借用标题中的“关键词沙拉”,就能顺利通过或者取得高分。
必须在阅卷之前设定评分标准
“自动评分、评分引擎通常需要设定评分标准,然后根据设定的标准设计合适的评分算法和模型。 ”。 天津大学智能计算系教授、博士生导师熊德意介绍说,例如口语评价评分等,需要机器评价人的发音是否标准、所读句子的重音是否正确、所读部分是否准确等。 这些可能都是评价的标准。
ai阅卷功能与语言复制的评价相关,涵盖了语法、意义等多个方面,多用于自然语言解决技术中。
“自然语言解决是人工智能的重要分支,研究利用计算机智能化解决自然语言,基础自然语言解决技术围绕语言的不同层面展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词,单词的 包括句法(单词如何形成句子)、语义(语言表达对应的含义)、语用(不同语境下的语义解释)、章节(句子如何组合成段落) 7个阶段”熊德意强调,这些基本语言自然会得到解决
虽然有多种设计自动评价指标的方法,但一般根据评价类型选择适当的方法。 “例如,阅卷功能为了进行翻译问题的自动评价,可以让老师预先写多个参考译文的回答,并将学生的回答和参考回答进行类比。 计算它们的相似度作为学生解答好坏的评价指标。 ”。 在熊德意的例子中,机器翻译常用的评价指标bleu是根据参考翻译和机器翻译之间的n元( n元)拟合度计算相似度的。
如果一个单词一元,两个相连的单词2元、3元、4元,答案中有一个单词与参考答案中的单词一致,则给出1元的分数,同样可以计算2元、3元、4元的分数。 我们对不同的要素设定不同的权重,将得分统一为客观值,得分越高证明两者的相似性越高。
为什么ai得分相差很大
这次ai阅卷翻盘的导火索是历史系教授学霸儿子在历史考试中只获得了50%的分数,但她在评价了儿子的答案后,认为孩子的答案基本没有问题。
同样的答案,人工评价和机器评价为什么差别这么大?
“这是基于ai算法的自动评估面临的最大挑战。 以及如何与人工评价相匹配。 应对这个挑战需要处理的问题很多。 例如,如何制定适当的评价标准,以主观主题进行自动评价,需要适当的评价标准和规范。 例如,如何应对语言的千变万化,语言多样化是自然语言解决的首要挑战之一,语言的自动评价和自动解决必须面对多样化的挑战。 例如,如何设计综合评价指标,目前有多种指标,但综合考虑语言文案各个方面的指标很少。 例如作文自动阅卷功能包括术语是否合理(词汇)、句子是否流畅(句法)、段落组织是否整齐(文章)、文案是否被扣分(含义、语用)等”熊德意说,上述bleu仅是单词形式,
“遵循的评价规则、评价的出发点不同,对应的算法模型也不同。 因为这最后的结果也大不相同。 ”。
这仅仅利用一种评价方法显然是不完整的,这说明孩子的母亲在答案中试图添加“财富、商队、中国、印度”等主题的关键字时,这些关键字之间即使没有任何联系也获得了满分。 “这个ai阅卷功能可能只采用了简单的关键词匹配。 这是因为“关键词沙拉”也可以蒙混过关。 ”。 熊德诠释。
此外,口语人工评价和机器评价也有很大差异。 “近年来,语音识别性能通过深入的学习技术得到了显着的提高,但在开放域、噪声环境下,这种识别率下降了很多。 ”熊德意解。 如果机器“听”了一个单词,错误评价的话,机器进行评价,就会形成一个错误传递。 也就是说,上游系统的错误会引起以下系统的错误,给错误加错误,错误越大,评价结果就越不同。
标题:“AI阅卷靠谱吗?提高了效率还是助长了作弊”
地址:http://www.5e8e.com/hlw/20019.html