近日,来自俄罗斯、韩国、赞比亚等国家的11位外国留学生完成了一份特别的中文试卷,之所以称其特别,原因是这份中文试卷不是由老师批改,而是由AI进行评判。这批考生也成为了全球首批接受AI阅卷的学生。
  200字作文寻出8处错误

  考试前,老师给他们布置了一道作文题,名为“请写一写你的爱好”。半小时的写作时间结束后,就轮到AI工作了。不过AI也不是直接就能对试卷进行评判,首先还是得先将试卷扫描,将扫描图像转化成文字之后显示在电脑上,几十秒不到,就见AI在一篇200字不到的作文里寻得了8个错误。
200字作文寻出8处错误 AI阅卷是否靠谱?
  
图片源自微博
  在这份作文里,我们可以看到,在“但中文的难点并非是字,而且像女朋友一样善变”这句话中,AI将Redundant(多词)标记在了“是”字下方,将Selection(错词)标记在了“而且”下方。此外,Missing(缺词)和Word Order(语序错误)等错误,也被AI逐一标记在了文中对应位置。
  据了解,这款AI来自阿里巴巴,将AI应用到外国人学中文试卷批改上,也是全球首例。在拥有评阅试卷的能力之前,这款AI需先经历大量的中文语言体系学习,通过扫描仪扫描完卷面信息,使用OCR技术将其转换成文本之后,AI再通过自然语言处理算法对文章内容进行分析,并识别出错位类型和位置,最后批注在卷面上。从目前的测试情况来看,这款AI在准确率方面都接近甚至超越人类的水平。
  AI阅卷是否靠谱?

  通常,考试的试卷中都包含主观题和客观题两部分。其中,AI参与客观题的评判比较常见,客观题一般都有标准答案,将考生的答案和事先存储的标准答案进行比对,得出对错,这是极其简单的过程。
  较高级的AI则可以在判断对错之后,对选项做出一定解释,让考生明白自己的选择对错及原因。除此之外,将所有考生的客观题答案集合起来,对每道题目的得分率、各选项选择率等进行综合分析,则是更为高级的AI,这就涉及到数据分析的层面。
  目前,用AI来评判客观题正误的模式,已被大多数人认可,一方面提高了阅卷效率,另一方面保证了阅卷质量。那用AI来评判主观题的好坏,又将如何?
  
某年高考的作文等级评分标准
  主观题是要靠人的思维发挥来答题,以作文题为例。上图是小编选取了某年高考的作文等级评分标准。从上表可以看出,人们将作文等级从内容、表达以及特征三个方面将其分为一、二、三、四等。但是小编认为,假如AI参与到此类作文的评判,也就在表达部分,能够起到最为严谨公正的评判。
  如上文提到的阿里AI,它就可以在文本结构、语句语病以及语言流畅度方面做出比较公正的评判,在字迹方面,也可以通过算法比对考生字迹和标准字体之间的相似度进行打分。尽管阿里AI已经达到了很高的标准,但是小编还是找到了一处AI未能检测出来的错误,在“然而,我的是不会放弃的”一句里,“的”字也应标注Selection(错字)才对。这说明AI某些语句的理解上,仍然存在一定不足。
  再者,中文博大精深,一句话甚至有多种不同的理解。如何判断考生所写的内容是否符合题意,文章撰写的是否有文采,对于AI来说或许都是个极大的挑战。
  其次,作文的核心是考生的表达思想,人类的感情是AI永远学不会的。即便AI可以评判作文的文法对错,但是它无法体会人类的喜怒哀乐,也就无法对文章内容、感情进行评判。
  正所谓“文无第一,武无第二”,文学创作本来就没有统一标准。AI阅卷容易限制考生思维,让原本能够展现考生才华的作文变得千篇一律。在这一点上,人工阅卷反倒更能拿捏分寸。
  也有人认为,AI阅卷的出现,给老师减少了不少负担。与人工阅卷相比,AI超快的阅卷速度能够提高评分效率,而且在面对作文这种主观题上,也能够施行统一的评判标准,有效避免因人工评卷主观性因素产生的评分差异,使作文评分机制更加合理公正。
  总之,新技术的出现总是争议不止,一千个读者眼中有一千个哈姆雷特,对于AI阅卷是否靠谱,你怎么看?
    来源:网络