那么,对于没有客观标准答案的主观题,机器阅卷的原理和依据是什么?吴晓如解释,直播,机器阅卷和人工阅卷的本质区别在于工作机理的差异。机器是通过统计、推理、判断来决策,这与人的思维方式不同。在阅卷过程中,机器采用智能学习的方式。通常一组专家评阅约500到1000份试卷后,机器就能学习到这一种试卷的评阅模式并形成一个模型。这种模型对其他试卷就可以形成有效的处理和覆盖,再根据该模型自动评阅其他试卷。 而对于度量标准则是,先推选一组公认阅卷水平较高的专家,把这一组专家对一组试卷给出的平均分作为一种相对标准。之后,把机器最后的测试结果、其他测试员测试的结果与专家的平均分比较。如果机器和专家给出平均分更接近、相关度更高,才认为机器评阅的结果达到预期。 “只有一种简单的或是标准化的测试模式实际上是非常容易作弊的,但从目前很多应用的结果来看,还没有一种办法能够很好地欺骗机器”,吴晓如说,“就像Alpha Go下围棋一样,并不是说找到一种客观、标准的套路就可以打败它。” 此外,对于机器阅卷是否会抹杀学生创造力的担忧,吴晓如表示,阅卷中机器会把与众不同的、富有创造力的试卷挑出来交给人工处理。还有,对于犯了低级错误但有新思路导致测试成绩不佳的考卷,也需要现场的测试员和专家来判断。 吴晓如说,实际上,机器主观题阅卷已经过了很长一段时间的验证。“很多教育专家、一线教师、校长一开始都对机器阅卷不认同,但通过结果的现场对比,这些专家最后还是认可机器要比人工测试的结果更好。” 探索作文自动评分 而在国内近年的主观题的机器阅卷技术研究中,最令外界眼前一亮的是哈工大讯飞联合实验室研发的语文作文评分技术。 要给作文评分就需要面对观性相当强的文本。那机器应该从哪些维度去评判?又如何去量化这些维度? 研究人员介绍,就像在中、高考阅卷中,全国的教师以一套统一、严格的标准来进行评分一样,机器批阅作文,最重要的也是让机器学到这套标准,然后按标准批阅。 也就是,教师们先设置一套通用的从字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次综合评估一篇作文质量的解决方案。之后,机器就可以利用算法从少量人工评分的样本中学习获得作文评分标准。比如一次考试有2000份卷子,从第一份卷子开始,机器就可以学习教师的阅卷方法,学到200份的时候机器就可以代替人工,自动对剩下的试卷进行智能化打分。 作文评分系统中,词汇丰富性和立意属于内容相关的特征;字迹工整度、局部连贯性、句法正确性和篇章结构属于表达相关的特征;文采属于发展等级特征。另外,该技术还利用人工神经网络对作文的语义进行深度表示,从而得以从宏观上把握文章的立意。 而这每一项标准背后都需要复杂、精密的技术来支持。例如,判断字迹工整度就需要用到手写识别技术,即自动将图片中的手写体字转写为文本的同时,j2直播,给出识别概率,以此来表示工整度。再例如,判断一篇作文是否离题,就先需要根据题目内容提取关键词,并根据主题进行扩展,同时提取作文中的关键词,再计算作文的关键词和题目的关键词的相似度。另外,也可以在该次考试的大规模数据上训练主题模型,得到全局的主题分布,然后和待考察作文的主题分布对比。 参与国家“863计划”(国家高技术研究发展计划)的科大讯飞方面表示,随着人工智能技术的发展,未来,除了开放式的作文,甚至政治、历史、地理科目的问答题机器都可以自动阅卷。 当全自动机器阅卷成为现实后,教师们将会有更多的时间和精力投入到对教学方法、教学手段等创造性工作的研究中,从而为学生带来质量更高、更全面的教育。 (责任编辑:本港台直播) |