随着技术的进步,一个长期存在的问题是它将如何改变或取代人类传统的工作。从超市的自助结账到AI在医学扫描中检测严重疾病的能力,所有领域的工作者都发现自己正在与可以完成他们工作部分的工具一起工作。由于疫情加速了AI工具在课堂上的普及,且这种趋势并未放缓,教学已经成为另一个与AI等工具共享专业工作的领域。
我们对人工智能在教学中的特定应用产生了浓厚的兴趣,那就是评估学生的学习成果。打分和给学生作业反馈往往耗费教师大量的时间,这使得许多教师无法布置更重要的写作任务,同时学生也常常需要等待很长时间才能得到成绩和反馈。在这种情况下,如果AI能帮助评估学生的作业,无疑能大大节省时间,提高学习效率。但是,我们也在思考一个问题,那就是AI打分和反馈系统是否真的能像真正的教师那样有效地帮助学生呢?
教师会询问:"你想表达什么?我不太理解。"而AI更多的是试图纠正写作的过程和格式——解决已经出现的问题,而不是尝试理解学生想要表达的真正含义。
我们最近做了一项AI平台的评估,这个平台让中学生可以编写、提交和修改回应设定作文题的文章。每当学生提交文章时,他们都会立即获得AI根据他们的掌握程度(1-4分)在四个写作领域(论点和重点,支持和证据,组织结构,语言和风格)给出的得分和建议,帮助他们改进文章。
为了比较AI评分和反馈与实际教师的评分和反馈,我们邀请了16位在2021-2022学年使用过这个平台的中学写作老师进行一次面对面会议。在确保他们对评分标准有准确理解和运用后,我们让每位教师评估10篇非他们学生的随机文章,并给出反馈。这样,我们得到了160篇由教师评估的文章,以便我们与AI的评分和反馈进行比较。
教师的分数与AI给出的分数相似还是不同?
平均而言,我们发现教师给文章的分数比人工智能低。无论在哪个方面,教师和AI之间都存在显著差异,除了在主张和焦点方面。总体来看,在四个维度(最低4分,最高16分)的总分方面,教师对这160篇文章的平均分数是7.6,而AI对同一组文章的平均分数是8.8。具体来说,在主张和焦点以及支持和证据方面,教师和AI倾向于对高分(4分)和低分(1分)的文章达成一致,但在中间分数上存在差异。教师更有可能给文章打2分,而AI更有可能给文章打3分。另一方面,在组织和语言风格方面,教师更有可能给文章打1分或2分,而AI的评分分布在1到4之间,有更多的文章得到3分甚至4分。
教师的书面评论与AI给出的评论相似还是不同?
在我们与16位教师的会议中,我们给他们机会讨论他们在10篇文章上给出的分数和反馈。在具体谈论这些文章之前,我们听到了一个常见的观察:去年当他们在课堂上使用这个评分程序时,大多数学生需要帮助来理解和解释AI给出的评论。举个例子,很多时候,学生们读到一条评论却不知道该如何改进自己的写作。因此,根据老师们的说法,一个明显的改变是现在他们能够用更适合学生理解能力水平的语言来表达评论。
“在我们的讨论中,我们反思了AI在评论和反馈方面的友好程度。现在的孩子们习惯了直接而真实的反馈。他们并不总是需要安抚自尊,而是希望解决问题。所以,并不总是需要夸夸其谈,而是需要直截了当”。
另一个我们发现的差异是教师们更注重整篇文章的质量——流畅性、语调、是否只是简单总结还是建立了论点,证据是否与论点相符,以及整体是否连贯。教师们解释说,他们在关注主张和焦点以及支持和证据这两个方面时更倾向于给文章打2分,这是因为他们能够看到整篇文章——而这是许多AI无法真正做到的,因为许多AI是在句子级别上进行训练,而不是针对整篇文章提供训练。
教师对组织结构进行更严格的评估是因为他们与AI有所不同,他们可以理解整篇文章的顺序和流程。举个例子,教师们分享说,AI可能会找到过渡词或建议学生使用更多过渡词,并将其作为良好结构的论证,但教师可以看到过渡是否真正流畅,或者只是被插入到一组无关联的句子中。在语言和风格方面,教师们再次指出了AI更容易受到扰乱的问题,例如通过使用看似复杂的词汇——这可能会给AI留下深刻印象,但教师们会看出那只是一串不能构成句子或表达思想的词语。
AI能帮助教师打分吗?
评估学生作业在教学中是非常重要且耗时的一部分,特别是当学生在学习写作时。学生需要经常练习和及时反馈,以成为自信和熟练的作家。然而,大多数教师缺乏规划和评分的时间,而且他们要教的学生太多,以至于无法安排常规或长篇写作任务,还要在自己的职业生涯中保持工作和生活的平衡。
AI在减轻教师负担方面非常重要。尽管我们初步研究发现教师和AI在评估方面有些差异,但我们相信,如果AI系统能像教师一样全面地看待学生的文章,并以适应学生成长和具体情境的方式给出反馈,让学生能够独立应对这些意见,那么AI确实有助于教师评分。我们认为改进AI在这些方面非常有价值,不仅可以减轻教师的评分负担,还可以确保学生有更多写作机会,并及时获得有益的反馈,提升他们作为作家的发展。