首页 > 测试员专栏 > 测试研究

普通话水平测试命题说话项人机联合评分研究

浙江省宁波市教育考试院 王渊志 测试研究 2023-10-31 16:17:23

  摘要:随着口语测评技术的发展,普通话水平测试命题说话项的试点采用人机结合的方式进行测评,其测评质量直接关系到测试的信度与效度。通过对比人工测评与机器测评数据,考察测评质量,同时提出人机联合评分发展的方向,以期为该模式的完善与推广提供科学的依据。

  关键词:普通话测试;命题说话;人机;评分;

  开展普通话水平测试是国家推广通用语言的重要抓手之一。随着信息技术的发展,计算机辅助普通话测试(以下简称机测)于2008年开始试点,考生在电脑前作答,前三项由计算机自动给分,第四项命题说话采用人工双评。近年来,普通话测试报考需求旺盛,带来命题说话项人工打分工作量显著增加,人力成本高企。随着深度学习技术的突破,教育部语用所联合科大讯飞公司启动第四项命题说话机评模块研发,使用计算机智能评分部分替代测试员人工打分。2020年开始,该模块在浙江省内正式上线使用。本文从命题说话项人机评分的应用实际出发,通过分析人机评分差异,为该模式的完善与进一步推广提供科学的依据。

  一、研究背景

  口语自动测评作为人工智能+语言测试的重要应用之一,起源于上世纪90年代初,由美国教育考试服务中心(ETS)率先在TOEFL i BT考试中使用。近十年来,国内的自动测评技术也日趋成熟,除普通话水平测试外,在大学英语四六级考试口试等多项考试中得到了广泛的应用。

  普通话水平测试(以下简称测试)是考查应试人(以下简称考生)运用国家通用语言的规范、熟练程度的专业测评[1]。测试主要包括读单音节字词、读多音节词语、朗读短文与命题说话四项内[2]容,满分100分。其中前三项已实现计算机自动评分,近十年的实践表明,机评效度已经极为接近人工评分水平,而且信度大大高于人工评分,有力保证了测试的客观与公正。

  命题说话是测试第四项考试内容,要求考生从抽取的两个话题中选定一个,围绕该主题连续说满3分钟。目的是测查考生在无文字凭借的情况下说普通话的水平。重点关注语音标准程度、词汇[3]语法规范程度与自然流畅程度。该模块分数权重最高(40分),难度最大。不同于前三项,命题说话属于开放性试题,具备条件开放、答案多元等特点,除了考查考生的语音标准程度,还包括词汇语法运用、表达流畅度、是否缺时、内容是否存在偏题离题、是否存在无效话语等一系列的评判标准。长期以来均采用测试员人工双评加复评的模式,不但成本较高,而且受测试员对评分标准把握程度的影响。近年来,命题说话项尝试开展人机结合评分模式,即计算机智能评分与一位测试员人工评分相结合,如果两者评分结果小于规定的阀值,所得的平均值就是考生第四项的得分,反之则提交复审测试员人工仲裁,取接近的两个分数的平均值作为命题说话项的最终得分。作为大规模的国家级考试,普通话水平测试命题说话项人机打分有何差异,效度是否能得到保证,目前仍缺少系统性的研究。

  二、实证研究

  本研究的原始数据来自2020年下半年在宁波市普通话测试中心参加测试的考生语料,共计7582份,考生的身份涵盖学生、教师、公务员、社会人员等类型,来自全国七大方言区,语音面貌涵盖除一级甲等以外的所有等级。去除各类异常后,得到样本总体N(N=7577),采用SPSS 22.0软件对数据进行分析。

  (一)平均值与标准差

  平均值反映一组数据的总体水平,标准差则反映各项数据与平均值的接近程度,标准差越小,数据的离散程度越低。对7577名考生的智能评分结果(以下简称机评分)与测试员人工打分结果(以下简称人评分)进行统计,得到的平均值与标准分见表1。

  表1 人机评分的平均值与标准差

  分析结果(表1)显示,机评分均值32.651略高于人评分均值30.106,差距为2.5分,机评分的标准差1.5241低于人评分的标准差1.5937,说明与人评相比,机评更为宽松,不同语料间打分差异更小。

  (二)相关性

  皮尔逊(Pearson)相关系数是衡量两个变量相关程度的重要指标之一,通过对机评分与人评分进行关联分析,可以得出同组样本评分结果关联水平。设有N个评分结果,人工评分为x1,x2,…,xn,自动评分为y1,y2,…,y,两组打分的相关系n数计算公式为式(1):

  相关系数r,其绝对值取值区间在[0,1],越接近1说明机评分与人评分关联程度越大。经计算,人评分与机评分呈正相关(r=0.579,p=0.000<0.01)。

  同时,将前三项成绩作为参考效标,统计分析得出命题说话项人评分与效标呈正相关(r=0.307,p=0.000<0.01),机评分与效标也呈正相关(r=0.444,p=0.000<0.01)。机评分与前三项评分的相关系数高于人评分,这为机评分的有效性提供了支持。

  (三)成绩分布

  图1统计了机评与人评的成绩分布,人评和机评各分数段的整体分布相当,评分趋势大体一致,可以反映出不同水平考生的成绩差异。机评分的高峰出现在33分左右,人评分的高峰出现在31分左右。相对于人评,机评分更为集中,绝大多数处于31~34分区间段,高分段和低分段数量较少,人评分跨度更大,绝大多数处于28~32分区间段。

  图1 人机评分结果分布图

  (四)一致性

  一致率指机评分与人评分的分差小于固定阈值的人数占样本总数的比率,根据相关规定,分差大于3分需要安排人工复审,因此该阈值设定为小于等于3分。

  图2 人机评分分差统计图

  图2统计了机评与人评的打分差,统计结果表明:分差在[0,3]区间的样本数为5650人,占75.6%。分差在[5.01,27.00]区间仅有208人,占总数2.7%。由此可见,人机评分一致率达到75.6%,虽然较传统的人工双评一致率略有下降(据2019年下半年的统计数据显示,传统人工双评的一致率约为88%),但仍保持较高的水准,说明人机结合评测不但能基本达到人工双评的水准,而且比传统人工双评降低了约40%的工作量。

  (五)评分结果差异较大的个案分析

  通过分析大分差的样本语料,发现两者对以下几类语料评分存在较大差异,取其中具有代表性的语料分析如下:

  1号“缺时”语料。考生表达不流畅,出现若干次10秒以上的停顿时长。机器把每次停顿时间累加,按缺时总时长扣除对应分数。人工评分对停顿累计时长计算不够精确,扣分较机器少。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
本文地址:http://www.pthxx.cn/csy/qzgl/2023-10-31/1911.html

学普通话——普通话有声学习站

http://www.pthxx.cn/

| 苏ICP备08000963号-19

使用手机软件扫描微信二维码

关注我们可获取更多学习资讯

**推广普通话,方便你我他**