第五章 心理测量学知识
第一节 概述
第七节 心理测验的使用
第一节 概述
第一单元 测量与测量量表 理想参照点为“0”,但心理测量中很难找到绝对零点,多人为标定。
行为
Stevens 将测量从“低级”到“高级”分成四种水平: ①命名量表 :数字表示标记、分类
②顺序量表 :无相等单位、无绝对零点;数字仅表示等级
③等距量表 :有相等单位、无绝对零点
④等比量表 :有相等单位、有绝对零点;可做“加减乘除”运算 难点
第二单元心理测验的基本概念
“原始分数”多不具有什么意义。
第三单元心理测验的分类
1、按测验的功能分:
①间接性
要与样本比较
——②相对性
③客观性
智力测验
特殊能力测验
人格测验
2、按测验材料的性质分:
3、按测验材料的严谨程度分:
4、按测验的方式分:
5、按测验的要求分:
第四单元 纠正错误的测验观
1、错误的测验观:
2、正确的测验观:
第五单元 心理测验在心理咨询中的应用
智力测验 人格测验 心理评定量表
第六单元 心理测验的发展史
——1890 高尔顿 心理测验的开端;奠定心理测验的统计学基础 ——1900 卡特尔 ——1910 比内 第一个正式的心理测验 —— 心理测验的发展:①操作测验发展 ②团体智力测验的发展 ③能力倾向测验的发展 ④人格测验的发展
文字测验 操作测验 客观测验 投射测验
个别测验 团体测验
最高作为测验 典型行为测验
测验万能论 测验无用论 心理测验即智力测验 心理测验是重要的心理学研究方法之一,是决策的辅助工具 心理测验作为研究方法和测量工具尚不完善
第二节 常模
第一单元
常模团体的条件
1. 群体的构成必须明确界限
即:必须清楚地说明所要测量的群体的“性质”与“特征” 团体内部也可以有小团体
2. 常模团体必须是所测群体的代表性样本 *
3. 样本的大小要适当
是由某种共同特征的“人”所组成的一个群体,或者是该群体的一个样本。 1 如:大学生
常模团体2 如:工人
3 如:儿童
4 如:女性
常模团体n... 如:...
取样误差 反比
总体数目小(几十个人)—— 100%的样本 总体数目大,一般最低不少于30 or 100个
样本大小适当的关键是样本要有代表性。 全国性常模,一般应有2000-3000人
4. 标准化样组是一定时空的产物 例如:
60年代大学生样本 & 90年代大学生样本 欧洲大学生样本 & 亚洲大学生样本
从目标人群中选择有代表性的样本
1. 简单随机抽样 《随机号码表》
2. 系统抽样 N :总体数 1/K :样本数
K :N/n —— 组距
例如:100名学生,抽取25名(为计算方便,通常不小于30)作为样本。K=100/25=4
K K
K K
K
K
K
K
K K K K K K K K K K K K 目标总体,无序可排,无内部循环规律,无等级结构存在
3.分组抽样
4.分层抽样
包括:分层比例抽样& 分层非比例抽样 常模分数与常模
常模
其他测验分数,要想得知其意义,需与这个标准进行比较
常模包括:一般常模& 特殊常模
为特殊群体(非典型团体)而建立
年龄文化程度
按“某种特性”分层
各组包含特征、性质均相同,在任一特性上均无层级之分。只是人为的划分为组。
例如:全国取样,可先按地区划分组
用量表进行“测验”
构成的分布
有”单位”&”参照点”
第二单元 常模的类型
年龄量表——个人分数指出他的行为在按正常途径发展方面处于什么样的发展水平
1.
方面的大致发展水平。
4周:控制眼睛运动,追随一个对象看 (眼睛)
16周:使头保持平衡 (头)
28周:用手抓握东西并玩弄它 (手)
40周:控制躯干、坐立或爬行 (躯干——坐、爬) 52周:控制腿脚运动、站立和行走 (腿脚——站、走)
—— 对能量守恒概念的研究——考察儿童认知的发展
5岁:理解 质量守恒概念 6岁:理解 重量守恒概念 7岁:理解 容量守恒概念 2.
比内-西蒙量表中首先使用“智力年龄”的概念。
● 方法1:
例题:吴天敏修订的比内-西蒙量表,每个年龄6个题,答对每题得智龄2个月。
假如某儿童6岁组题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过26(岁)+4岁+18月 = 7岁6个月
基础年龄
● 方法2:
年龄常模——作为对比标准 3.
团体常模
例如:
6
5
二、百分位常模
1.
也叫“百分位数”
百分等级公式:PR=100―
例题(百分等级):小东在30名同学中语文成绩是80分,排名第五,则其百分等级为: 例题(百分点):高考的最高分为695,其百分等级为100,最低分为103,百分等级为1,要录取20%的学生进入大学,百分等级为80的百分位数是多少?
25
3.
&
四分位数:将量表分为四等分,相当于百分等级的 25%、50%、75%对应的三个百分分成的
四段
十分位数:1~10%第一段;11~20%第二段;... ...;91~100%第十段
三、标准分常模
X:原始分数 与 :平均数之间的距离 ——是多少个标准差? 每个X 位点(X1、 X2、 X3、 X4...)都用其距离多少个标准差表示,所有的数值合在一起组成标准分常模。
单位:标准分数——z 分数、Z 分数、T 分数、标准九分数、离差智商(IQ )
线性转换 非线性转换
1. 线性转换的标准分数
z =
100 SD X
X
X X
2.非线性转换的标准分数
标准九分:9级分数量表,
标准十分:
标准二十分:
四、智商及其意义
心理年龄>生理年龄:智力较高
心理年龄<生理年龄:智力较低
1.
IQ= ×100(MA:心理年龄;CA:实际年龄)
由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实际年龄并不同步增长,所以比率智商并不适合于年龄较大的被试。
2.
IQ=100+15z’=100 +
不同测验获得的离差智商只有当标准差相同或接近时才可以比较。
(例如:韦克斯勒智力测验,在翻译到不同国家使用时,需对当地人群进行取样制作适合当
地人使用的常模,由于不同国家人群特点及分布不同,所得均值和标准差均会有所差别,常
模有所不同,无法进行比较)
所以在解释测验分数时,务必注意标准差的大小及个案分布(见下图)
原始分数百分等级z’分数
转化为转化为
X = 50;SD=10
X =5;SD=2
X =5;SD=1.5
X =10;SD=3
MA
CA
表示个体智力在年龄组中所处的位置
15(X―)
SD
X
以100为平均数不同标准差下每一IQ 组距整台曲线下个案百分比
-4σ
-3σ -2σ -1σ
+1σ
+2σ +3σ +4σ
mean 人 数 测验分数
z 分数T 分数CEEB 分数离差智商(SD=15)标准九分 百分等级 200 300 400 600 700 800 500
4% 7% 12% 17% 20% 12% 17%
12% 4%
第三单元常模分数的表示方法
1)转换表法
最简单、最基本的表示常模的方法。——也叫:常模表
测验的使用者利用转换表可将原始分数转换为与其对应的导出分数,从而对测验的分数作出有意义的解释。
2)剖面图法
将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。
第三节信度
第一单元信度的概念
= r XT 2 = S T 2 / S X 2 (真实分数方差/实得分数方差) —— ①“信度系数”
= S T / S X (真实分数标准差/实得分数标准差)
——
②“信度指数”
= S X
1―r xx (信度
& 标准误 成反比)
——③“标准误”
第二单元 信度评估的方法
每种信度只能说明信度的不同方面:
?
?
即:
同一个被试 同一个测验
不同的时间 同一个被试 不同的测验 同一个时间 评估两次答卷结果的相关程度
评估两份问卷(正、副本)结果的相关程度
?
2.
?
同一份问卷 不同的测评师
同一份问卷按奇、偶数项目号分两半 评估两半测验内容的相关程度
评估测验内部各个题目之间的相关程度 评估两评估师评估结果的相关程度
第三单元 信度与测验分数的解释
r xx =0.90 90%的变异是真实分数造成,仅10%来自测验误差
r
xx =1.00 所有变异全部来自真实分数,完全没有测验误差 0 一般能力测验 & 成就测验:r xx > 0.9,有的达 0.95 人格测验、兴趣、态度、价值观测验:0。80 < r xx < 0.85 一般原则:⑴r xx < 0.70时,不能用于“个人”or “团体”测验 ⑵0。70 ≤ r xx < 0.85时,可用于“团体”比较 ⑶r xx ≥0.85时,才可用作“个人”测验 另一原则:新编测验信度应高于原有同类测验或相似测验。 95%置信区间: X ―1.96SE < X T ≤ X+1.96SE 说明:大约有95%的可能性真实分数落在所得分数±1.96SE 的范围内,或有 5%的可能性落在范围之外。 例题:某被试IQ100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?(已知该智力测验的标准差为15,信度系数为0.84),则其IQ 的测量标准误和可能范围分别为: SE = S X 1―r xx =15 1―0.84 =6.0 IQ =100±1.96×6=100±11.76≈88~112 这个被试的真实IQ 有95%的可能性落在88与112之间。即:若再测一次,他的智商低于88、高于112的可能性不超过5%。 比较不同测验分数的差异 例题:P 353 真实分数的方差 实得分数的方差 信度系数 ⑵了解实得分数再测时可能的变化情形 不同测验间差异的标准误 第四单元 注意:P351,提到的“异质性”——指的是心理学变量——即:测验的条目之间的差异 不同团体 平均能力水平“低” 平均能力水平“高” 同质:水平接近 异质:水平差异大 ◆ 增加长度的计算公式:斯皮尔曼-布朗公式 例题:一个包括40个题目的测验信度为0.8,欲将信度提高到0.9,问至少需要增加多少个题目? 即:要取得0.9的信度,测验长度应为原来的2.25倍,即:需增加40×2.25-40=50个题目 ◆ ◆ 重测法 & 复本法 求信度,两次测验相隔时间越短,其信度系数越大;间隔越久,其他变因介入的可能性越大,受外界影响越大,信度系数越低。 优点:⑴内容越有代表性 ⑵猜测因素影响越小 缺点:被试疲劳、反感 降低可靠性 0.9(1―0.8) 0.8(1―0.9) K= =2.25 对于被试来说: 对于被试来说: 测验难度适中 才能使分数 洛德(Lord )提出在成绩测验中,为了保证可靠性,各类选择题的理想平均难度为: 五择一测题:0.7;四择一测题:0.74; 三择一测题:0.77;是非题:0.85 第四节 效度 S X 2 = S V 2 + S I 2 + S E 2 S T 2 即测量出的实际水平 实际水平+不可控制的系统误差 只受“随机误差”的影响 受“随机误差”&“系统误差”的影响 1)相对性 效度——→针对一定的目标(目的&功能),符合该目的的有效性。 如:测量智力的目的——智力测验的效度 测量认知态度的目的——功能失调性态度问卷的效度 2)连续性 1.信度是效度的必要而非充分条件 2.效度受信度制约 见书P358公式,r xy≤r xx。 测验首先要可信,原理上行得通,才能进而考虑制作的测验工具是否具有准确性,能够遵循这一原理准确的测量出所要测查的心理变量。 第二单元 两者的相关性,用“相关系数”(即:效度系数)表示——反应测量效度 这种相关,即一致性,只有匹配程度区分,没有“全匹配”or“无匹配”,所以测验的效度,智能用高低评价,不能说“有效”,“无效”。 效度是针对测验结果(即:实际智力+环境干扰+测验系统准确性)的,即测验结果的有效性程度。 S V2↑——r xy2↑ S V2↑——(S V2 + S I2)↑——S T2↑——r xx↑ r xx↑——S E2↓——S I2?——S V2? 对行为取样,是 考察测验条目是否证