A-Level:模特不是学生

2020-08-17 19:44:56

在2020年,十八岁和梦想未来肯定是艰难的。你能数得清有多少世界末日,有多少灾难,有多少法西斯主义者吗?十八岁,还在想哪一个会毁了你。对许多人来说,他们刚刚发现:A-level成绩。显然,它已经出了灾难性的错误,但为什么呢?总而言之,错误自始至终都在发生,但我将集中在两个关键的技术错误上。1)实验设计有缺陷,使得所有结论都得不到支持;2)核心算法在数学上是不可靠的,生成的结果是有问题的。让我们从Ofqual用来预测成绩的模型开始(从他们319页报告的第85页开始)。每所学校都提交了他们的学生名单,从最差的学生到最好的学生(其中包括老师建议的成绩,但他们把这些都扔掉了,以便进行更大规模的分组)。然后,Ofqual获取前一年的成绩分布,应用一点魔术来更新2020年的成绩,只需按排名顺序将学生分配到成绩。如果Ofqual预测40%的学校会得A,那么这就是事实,不管老师们认为他们会得到什么。如果Ofqual预测有3名学生将得到U,那么你最好希望自己不是得分最低的三名学生之一。诸若此类。反对意见似乎很明显,苏格兰解决方案(BBC)含蓄地强调了教师预测的下降。但是老师们只在50%的时间里估计正确的分数(第15页),所以从数学上讲,这是一个合理的决定。然而,教师确实对学生进行了相当好的排名,相关系数至少为0.76(P15),这使得他们相当可靠。Ofqual在那里做出了正确的选择。实际问题要根本得多:他们犯了基本错误,导致他们得出的每一个结论都无效。他们做得对的一件事是,如果他们的模型有歧视,他们就会进行测量。为了做到这一点,他们想象那是一年前(第48页):他们在2019年运行他们的模型,并将结果与已知的考试结果进行比较。由此,他们得出结论,他们在40%到75%的时间里(取决于学科)预测正确的分数,而且他们的模型是公平的。但他们做了一个致命的替换,把这个评估搞得支离破碎。在正常年份,老师只提供学生成绩的估计值。级别不包括在内。在搜索要使用的排名时,他们使用了实际的2019年A-level结果(第49页)。这是完全错误的。让我们再解释一下算法的最后部分。你会得到两份名单,一份是有等级的学生名单,另一份是要分发的成绩名单。算法所做的就是从最差到最好对这两个列表进行排序,然后将它们配对。就这样。困难之处在于,您实际上并不知道这两个列表中的任何一个,因此请尽最大努力估计这两个列表。教师选择顺序,Ofqual选择成绩(作为成绩分布)。但在测试该系统时,他们使用了2019年考试分配的2019年学生的实际已知顺序:他们只猜到了两份名单中的一份。这是一个不同且容易得多的问题。这被称为数据泄露:这相当于人工智能在考试中偷偷地做笔记。这是作弊:他们给了模型2019年的考试成绩,然后让它预测2019年的考试结果!因此,没有理由相信解决有缺陷的2019年版本的问题将告诉你算法在2020年问题上的表现如何。他们的准确率只有40%到75%,这是因为他们不得不预测本年度与前几年的分布情况;因为2019年的排名是完美的,所以准确率不会从100%下降。我们根本不知道真正的准确性是什么,但它会低于报道的。更关键的是,我很抱歉地说,教师产生的排名是种族主义和其他形式的肮脏行为被引入系统的关键时刻。将大学申请程序移至成绩公布后的夏季进行的理由之一是保护少数族裔不受这种影响(“卫报”)。通过用来自年级的排名取代教师排名,学生可以匿名访问,他们的肤色、性别、残疾状况和贫困都被隐藏起来,他们使整个分析无效。我们可以把报告的一半以上当作彻头彻尾的垃圾扔掉,特别是所有声称它是公平的。还应该指出的是,他们有11款车型,他们从这些车型中选择了表现最好的:他们选择的车型是为利用2019年的缺陷而设计得最好的车型,几乎可以肯定的是,就其隐含的目标而言,他们创建的车型并不是最好的。我们可以在这一点停下来。由于有证据表明他们做了正确的事情,但事实是错误的,唯一明智的反应是撤销标记并重新进行分析。但是如果我们停在这里,他们可能会纠正上面的错误,偷偷溜进