一小节,应该讨论在教育测评转向的话题下,如何设计新题库的问题。这是原计划的。
不过后来马老师邀请做一个分享,也选择了这个题目。于是我按照分享的思路,做了一个整理。这里是其讲稿的初稿。因为是分享内容,所以有一定的回顾。抱歉抱歉,请未嫌弃啰嗦。
呼唤教育测评转向(讲稿)大家好,感谢马老师和高艳,尤其是马老师提供机会并多次鼓励和邀请,今天我们来聊一个话题,“呼唤教育测评转向”。所谓呼唤,就是尚未实行,但我认为应该实行——所以就呼唤。之前和主持人开玩笑,说这本来可能是一个热情大于专业度的分享,若再有一点紧张,结果连热情也发挥不出来,就只好给大家看PPT了。今天确实有点紧张,请大家鼓励。
我们今天的主要内容如下。
开始先做一个自我介绍,然后介绍一下今天分享的目标与定位。然后开始主体内容。
首先我们假设听众对教育测评仅有一个初步的了解,所以有必要对教育测评做一个综合式的回顾,这样的起点方便一些同学进入我们讨论的语境。这个回顾以形成性评价和终结性评价对比结束,带出形成性评价。
接着我们探讨为什么鼓励教育测评转向,一方面介绍芬兰基础教育的教育测评体系,进而谈一谈对我们中国基础教育,教育测评转向的意义。
既然是谈形成性评价,自然离不开的是教学的过程。所以回到我们的主题,我们给大家展示两个真实课堂教学过程的案例。一个是北京一个新式小学的语文教学案例,一个是美国高中历史教学案例。通过这样的实际案例,我们来探讨形成性评价如何做。
这个如何做的探讨,一方面和教学目标与教学设计是分不开的,另一方面,也需要考虑孩子具体的学习能力和学习过程——所以这种探讨即使建立在真实教学案例上,仍然很初步—— 是真实操作获取真实反馈,进而可展示可分析可优化:这就是形成性评价 的意义,为了学习而做的测评,优化教与学的过程。当然,我们这里探讨是为了呼唤,所以期待有后来者完成后续工作。
这样的教育测评当然是有挑战的,我们大略的聊一聊这个事情本身的挑战。对于教育政策、学校资源和商业公司的商业路经上的挑战,我们这次就不聊了。我相信这件事情 的关键在于人的本心,如果本心在于改进教育,不一定使用这个名号,也会前进一小步。
会有两个有意思的附录。主要内容就是这些。我预感可能会超时——话题内容其实有点多,不感兴趣的同学可以自愿选择。
首先简单介绍我自己,大家可以叫我李子。在年初以前,我在互联网公司工作,分别是阿里和百度,和教育有关的,如果说带团队培养人员梯队不算的话,那就是兼而推广敏捷Scrum,以及为了要出生的宝宝去考早教教师证。年之后我正式进入互联网教育行业,从事工作方向包括教育大数据、个性化教育与推荐模型、教育测评以及在线交互式课程。目光聚焦在K2教育和语言教育上,目前艰难创业中。(这次分享和我当前创业项目没有关系,仅仅是为了信念而做)
上面的主要内容介绍时,已经体现出了我们今天分享的目标与定位。我是想通过今天的分享内容,来做一个呼唤,来做一个启发,来做一个准备。这个分享内容,概括为“在了解教育测量与评价概貌的基础上,通过一些真实的非教授主义的课堂案例,来探讨教育测评转向如何做”。不过我有三个点,需要提前强调。其一就是这个话题的深度是远大于我的能力的,所以一再强调“热情大于专业度”,另外一种说法是小童耍大刀;其二就是,课堂如果狭隘的划分,一种是以教授或传授为主的,一种是以任务和学习活动建构为主的,我自己不参与孰优孰劣的争论,如果后面有同学问这个问题,我不会回答——但我先表明我自己的立场,课堂质量我首重教师,次看课程,但这次分享的案例,选择的是任务和学习活动建构为主的课堂形式(如果有同学想了解这个选择的原因, 回答问题时我可以再来回应);其三就是,一定会有同学问如何落地,或质疑一般学校落地的问题,我确实知道落地的困难,我曾经去过条件很一般的学校拜访老师,他们还有很多生活和生存的问题——这些现状我是知道的,只是我也不想就此争议,各有看法,各有行为,大家做不同的事情就好了。
说完这三点,定位就介绍完了。做呼唤,各做事,不做无谓争议。
教育测量与评价是一个非常庞大的体系,也是教育三大基础理论之一。我这次通过自己的梳理,给大家介绍一下概貌。之前这个大图给部分同学看过,有反馈说这个图有点乱,我现在当面解释一下。
首先我们看教师教学和学生学习的过程。教师有备课、讲课、辅导若干核心教学行为,现在有些学校教改,教师教学行为可能还会包括活动的设计辅导和项目的设计辅导;除此之外教师还需要参加教师培训和一些教研工作,以及学生管理工作。这些都和“教”有关。相对应的,学生有预习、上课、练习若干核心学习行为,当然,部分学校的学生会做活动、做项目。这些都和“学”有关。以上这些都是教与学的核心过程节点与场景,而事实上有两个基本维度的力量在驱动它们——一个就是“教与学”本身,教师需要教的更好,学生需要学的更好,以完成教育本身的目标,孩子成为社会需要的、更好的自己;而另一个,是社会的组织和管理力量,我们需要对学生(甚至对教师)做出分类和排序,以方便后续更多组织和管理的工作。
在这样一个大背景下,我们来看教育测量和评价的体系。我曾经用这样一个问题来引导,“如果遇到一个做测评产品的朋友,你如何用四个问题来了解他们的产品方向?”,这个问题先抛给大家。
个问题是,“你们测评产品的使用场景和目的是什么?”。对于这个问题,主要是来探讨对方产品在教与学过程中的使用场景和目的:为了对学生的学习效果做认定,为了升级或升学的,有终结性测评和大规模标准化测评;而在教与学过程中,有为了了解新课之前学生基本状况的安置性测评,有对学生作品和活动的表现进行评价的表现性测评,有对教与学的过程中进行评价的形成性测评,还有用档案袋的形式,把学生各种评价材料和结果进行组织的档案袋测评。这里的概念非常多,还有过程性评价、学习性评价等,没有列入。而且对于其概念定义大家看法也有不同,比如,多数专著会认为形成性评价和过程性评价是一回事,但在另外一个场合我听过雷达老师非常棒的区分。
第二个问题是,“你们测评产品的测量变量是什么?”。这个问题是想问,比如尺子可以测量长度,弹簧秤可以测量力,你们的测量产品可以测量啥?我自己粗略的分为三大类,可以测量学生的学业成就,对于知识的掌握数量和水平;也可以测量学生的能力和素养,比如阅读能力、逻辑推理能力、批判性思维能力等等;也可以测量学生的非智力因素,如性格、毅力等。我们大多数期中、期末考试都是 类,学业成就评价;而例如PISA考试,是评价阅读能力、数学素养和基于计算机解决问题的能力,属于第二类;有很多测评产品会安排一些测评问卷,对学生的非智力因素做测评。
第三个问题是,“你们测评产品的测评参照体系是什么?”。这个问题是想问,你们测评的结果——最终打分或等级,参照体系是什么?这个也有三种,其一是常模参照,在中国最常见,所谓常模就是一个特定的群体,比如某某区五校联合期末考试,这个就是这五所学校同一年级的学生一起评价,当然,可以用原始分、百分位,也可以用标准化分数。其二就是标准参照,考试本身是参照一个教育目标的标准,所以不用和任何群体对象来比,就参照这个教育标准来看是否达标就可以了,中国基础教育这一类考试比较少,更显而易见的例子是考驾照;其三就是潜力参照,不用和别人比,也不用和教育标准比,而和个人潜力与过往表现比,今年高考语文卷有一个作文题目,看漫画写作文,从00分降到98分打了一巴掌,从不及格到6分给了一个吻,这家长有点潜力参照的意思。
第四个问题是,“你们测评产品的测评技术工具是什么?”。这个问题是想问测评事实的技术手段是什么。答案可能比较多。有原始的纸笔测评,也有计算机化的测评,还有面试类的测评。即使计算机化的,有把测评内容信息化之后,用一个测评软件来做测评的,仅仅是测评工具发生变化,也有使用心理测量模型为基础,不用让你做完一张卷所有题目,而是通过每次做题结果自动选择下一个合适的测评题目的计算机自适应测评,这种测评背后机制发生了改变。所以这里有着丰富的产品和技术形式。
通过这四个大问题,你可以基本了解对方的测评产品的内涵。无论他使用了一个什么样的概念来包装他们的产品,基于这些教育测评的内涵,我们才能把握住对方的产品实质。
当然,问完这些问题还可以继续聊。因为教育测评是一个非常专业化的方向,它的有效性或质量特别依赖于团队的专业化程度。不专业的教育测评是没有意义的。如果你想继续聊这个话题,还可以继续问。
个问题,比如,“你们的测评的信度大概是怎样的?”。所谓信度,就是测评的可信程度,比如测量长度,钢尺和软尺的测量结果的可信程度会不同;教育测评的信度,最理想的情况当然是一个测评在两个平行宇宙中分别测试的结果的一致性来评价,但我们没有办法操作,所以实际操作会用各种近似的相关系数来评价,比如用两张测评目标、结构和难度都一致的试卷来做平行测试的相关系数,或者一张卷内奇数题目和偶数题目的相关系数,等等。专家告诉我们,一般来讲个体智力的测评信度可以达到0.92,写作测评信度是0.6左右,但创造性测评的信度只在0.5左右。心理投射测评信度还要低,0.2左右。
第二个问题,比如,“你们的测评的效度大概是怎样的?”。这个最难回答,因为效度是测量“测评对象”的准确程度,但教育的测评对象和心理学是一样的,都是隐含的,没有办法直接观察。所以只能用一些技术手段来分析和逼近,比如你不能用长跑来测游泳的能力,如果你测量的是学业成就和知识掌握,在揭示学生能力素养上有效性就差一些。但整个来说,效度不是0或的概念,任何一个测评都是相对有效的——从这个意义上来说,长跑来测游泳能力虽然很烂,但长跑可能测到了游泳的体力因素。
第三个问题,比如,“你们的测评都控制哪些偏倚?”。这个问题可能会涉及细节,但细节中多藏有魔鬼。比如,一个常见的英语情境是妈妈带着孩子去超市,或者咖啡馆——这样的题目背景对农村孩子来讲,是非常陌生的;再比如,年高考作文之一就是“高速公路上打电话”的场景,这种场景作为一个全国性选拔考试的题目,是有一定的问题的。所以,对个人的家庭背景、经济状况、宗教信仰、生活经历等等,会有许多因素可能影响到学生的测评结果,但这些因素和测评目标没有关系,这些偏倚都需要控制。
等等,通过这样的沟通,你能了解到对方的测评产品的质量,或者专业度。当然,如果继续聊下去,你的朋友可能邀请你一起做测评了,否则细节不能聊太细。
插入一个问题是,教育测评不能简单以信度来衡量,比如我们上面提到的,写作测评信度可能只有0.6左右,但客观题的大规模标准化测评,信度是更高的,这不能说大规模标准化测评就是好的、科学的,而写作测评及各种表现性测评就是不好的、不科学的。再比如,面试的信度也不如客观题目的试卷,但企业招聘时,没有几家公司主要靠客观题目的试卷来招聘的。这仍然和教育测评的目标有关。
说到教育测评的目标,我们需要着重对比一下形成性评价和终结性评价。我们来看下面这个对比内容。
所以,形成性评价是“为学习的评价”,它描述学习者的特征,聚焦进步点,帮助教与学。一般形式比较多元化,有小测验,有作品和表现,有自评,有演讲等等;评价频率是在教与学的过程中,间歇式的,非正式的,重点在于过程的引领,而不是审判性的。
我个人的总结,形成性评价再加实验系统,这是一个完整的教与学优化的实证系统。可以观察课程、教师、学生、教练辅导、练习、反馈等不同因素条件下,学习效果的进展和因素分析,进而达到我们优化教与学的目的。这是右边条件概率P的含义。
在这个层面而言,形成性评价的实施,既要