반응형

[교육평가] 9. 평가결과의 처리



문항분석의 이해


문항분석은 각 검사 속에 담겨있는 문항의 양호도를 여러 가지 측면에서 분석하는 것이다. 어떤 검사 문항이 그 기능을 제대로 발휘하고 있는지를 검증함으로써 그 문항의 양호도를 결정하는 작업이다.  

문항분석은 문항곤란도, 문항변별도, 문항반응분포 등의 검증을 통해 이루어진다.

문항분석의 결과는 새로운 문항구성의 자료를 제공하고, 개인 또는 학급자의 학습곤란을 발견하고 알맞는 처방을 내리는 것이다. 문항반응분포를 보면 정답지가 얼마나 역할을 했으며, 오답지가 얼마나 매력적인가를 알 수 있다.


문항곤란도는 검사문항의 쉬운 정도 또는 어려운 정도를 나타내는 용어로, 문항난이도라고도 하고, 한 문항에서 총 반응수에 대한 정답 반응수의 비율(정답률)로 나타낸다. 

문항곤란도는 선택형 또는 서답형인가에 따라 곤란도의 산출결과가 달라지며, 선택형 문항이더라도 미달항(시간이 모자라서 답을 못한 사람)과 추측요인을 제거했는가에 따라 산출결과가 달라진다. 

다음은 문항곤란도 공식이다.

1. 정답자만의 곤란도: \(N\)을 전체 사례수(반응자수), \(R\)을 정답자수라고 하면 문항의 곤란도 \(P\)는 다음과 같다.$$P=\frac{R}{N}\times100(\text{%})$$2. 미달항(\(NR\))을 제외한 곤란도: \(N\)을 전체 사례수, \(R\)을 정답자수, \(NR\)을 미달항이라고 하면, 문항의 곤란도 \(P\)는 다음과 같다.$$P=\frac{R}{N-NR}\times100(\text{%})$$3. 추측요인을 제외한 곤란도: \(N\)을 전체 반응자수, \(n\)을 해당 문항의 답지수, \(R\)을 정답자수, \(W\)를 오답자수, \(NR\)을 미달항이라고 하면, 문항의 곤란도 \(P\)는 다음과 같다.$$P=\left(R-\frac{\displaystyle\frac{W}{n-1}}{N}-NR\right)\times100(\text{%})$$문항곤란도 지수는 0~100%속의 어느 위치를 나타내게 된다. 규준지향평가(상대평가)에서는 문항곤란도 지수가 평균 50%일 때 가장 이상적이고, 응답자의 변별력이 가장 크다. 문항의 양 정도는 문항곤란도 지수가 20~80% 사이이다.

준거지향평가(절대평가)에서는 목표성취도를 중시하므로 문항곤란도를 중시하지 않고, 그 문항이 설정한 교육목표를 잘 성취하고 있느냐의 여부에 관심을 둔다.


문항변별도는 개개의 문항이 측정하려고 하는 능력이나 특성의 유무를 얼마나 잘 가려내는가의 정도를 말한다. 문항 하나하나가 상, 하위 집단의 능력을 변별하는 정도이다. 문항변별력은 그 문항이 무엇을 측정하고 있는가, 그 문항이 학생의 능력을 변별하는 힘이 있는가를 묻는 것으로 문항타당도라고도 한다. 

문항변별도는 어떤 검사에서 총점을 성적순으로 배열했을 때 그 중앙값을 중심으로 상위 부분과 하위 부분으로 나누어 계산하는 것으로 상위 부분의 학생이 하위 부분의 학생보다 정답에 반응한 확률이 높아야 의미가 있다.

문항변별도는 변별도지수(\(DI\))로 나타낸다. 

변별도지수는 존슨의 공식에 의해 산출되고, 상위 부분의 정답수를 \(H+(RU)\), 하위 부분의 정답수를 \(L+(RL)\), 상위에서 하위 부분의 사례수를 \(N(2f)\)라고 하면, 변별도지수(상위에서 하위 부분의 지수)는 \(DI(ULI)\)이고 다음과 같다.$$DI=\frac{(H+)-(L+)}{2N}\left(=\frac{RU-RL}{f}\right)$$변별도지수는 \(\pm1.00\)까지 사이에 분포되어 있고, 바람직한 변별도지수는 +0.30~+0.70사이에 분포되어 있고, 곤란도가 50%일 때 변별도지수가 가장 크고, 곤란도가 0%나 100%의 극단에 가까울수록 줄어든다.  

하위 집단의 정답률이 상위 집단보다 가장 높으면 그 문항은 어딘가 잘못된 것이다. 문항추측을 많이 할 수록 변별력은 떨어지며, 극단적으로 문항이 어렵거나 쉬우면 문항변별력은 떨어진다. 반대로 하위 집단보다 상위 집단의 정답률이 높으면 문항변별력이 높고, 상위 집단의 정답률이 낮은 경우, 문항곤란도(난이도)가 큰 문항이라고 할 수 있다.

절대평가는 교육목표의 달성도를 측정하는데 목적이 있기 때문에 그 문항이 주어진 교육목표를 타당하게 측정한다면 문항변별도는 불필요하다. 상대평가에 있어서 문항변별도는 문항의 양호도를 판단하는 기본적인 준거이므로 적어도 0.20이상이어야 하고, 0.30이상이면 만족수준이다.

다음은 문항변별도의 특징들이다.

1. 검사의 총점이라는 내적 준거에 의해 문항타당도를 고려한다.

2. 변별도지수는 +부호를 가지면서 그 값이 크게 나와야 바람직하다. 변별도지수가 +(양수)이면 정적 변별력을 갖고, 0에 가까우면 변별력이 거의 없다(가장 바람직한 변별도지수는 +0.30~+0.70). 변별도지수가 -(음수)인 경우는 하위 집단이 상위 집단보다 높은 점수를 얻은 경우이고 어딘가가 잘못되었음을 의미한다.

3. 변별도지수는 상관계수처럼 -1.00~+1.00의 값을 갖는다.

4. 변별도지수는 규준지향평가(상대평가)에 사용된다.

5. 학습자의 실패자와 성공자의 변별이 잘 되는 교육목표가 어느 것인지를 확인하는데 중요한 정보를 제공한다.


문항반응분포도는 각 문항별 답지에 학생들이 어떻게 반응하고 있는가를 나타내는 반응이다(문항의 각 답지에 대한 반응의 분포상태를 만한다). 각 학생들이 문항의 각 답지에 어떻게 반응하고 있는가를 기술하고, 거기에 근거하여 분석을 하는 방법이다. 정답에 응한 수가 20~80%사이여야 답이 제대로 정답 구실을 하고, 오답에 대한 반응도 골고루 분산되어야 진짜 정답을 모르게 모두가 그럴 듯한 매력적인 오답을 지니고 있어야 양호한 문항이라고 할 수 있다.

문항의 반응분포를 이용하는 방법은 다음과 같다.

상대평가: 각 문항에서 대부분의 학생(50% 이상)이 정답에 반응하고 소수의 학생은 오답지에 비슷하게 분산되어 있을 것을 기대한다. 이렇게 될 때 문항은 학생의 능력차를 변별할 수 있고, 오답은 제 역할을 수행할 수 있게 된다.

절대평가: 학습과제 초기 단계의 문항에서 대부분의 학생이 정답에 반응하고 오답에는 적게 반응하며, 학습이 진행되어 점차 학습과제의 종결에 도달할 때 실시한 형성평가의 문항에 정답 반응을 하는 학생이 감소하는 현상이 예상되나 소수의 학생이 정답에 반응하고 대다수의 학생이 오답문항에 반응하는 경우에도 허용문항으로 다룬다. 허용문항은 형성평가의 문항 자체가 제 역할을 못해서가 아닌 교수-학습 조건이 제대로 역할을 못해 학생이 성취수준에 도달한 것으로 간주한다.


검사점수의 이해 


검사점수의 표시방법에는 원점수, 백점만점척도, 등위점수척도, 백분위점수, 표준점수 등이 있다.

원점수는 어떤 평가를 할 때 채점되어 나오는 점수 그대로이다. 기준점이 없고, 여러 교과에서 나오는 점수를 비교할 수 없으며, 원점수 만으로는 두 집단 간의 성취도를 비교할 수 없다.

백점만점척도는 점수의 범위가 0~100까지인 점수로 의미 있는 준거, 검사결과의 안정성, 객관성과 일관성도 없다.

등위점수척도는 서열이나 순위를 나타내는 점수로 석차, 등위와 같은 척도이다. 등위점수는 학생들의 상대적 위치만 나타내고 학업성취도를 나타내지 않기 때문에 집단의 성질이나 학생수가 달라지면 등위점수가 달라진다.

백분위점수는 일정한 누가 백분율에 해당하는 점수 분포상의 한 점수를 나타내며, 백분위와 관련시킬 때 이에 관계되는 원점수를 의미한다. 특정 점수 이하의 점수를 얻은 학생들이 전체에서 차지하는 백분율을 의미한다.

백분위는 그 점수 미만에 놓여 있는 사례의 전체 사례에 대한 백분율을 말하며, 백분점수는 점수 분포상에서어떤 일정한 백분위에 해당하는 사례가 그 점수 미만에 놓여있을 때 백분위에 해당하는 점수이다.

백분위 점수는 100을 기준으로 했기 때문에 집단의 크기나 평가의 종류가 다르더라도 서로 비교해 볼수 있고, 학업성취도의 상대적 능력을 표시하지는 않는다.


서로 다른 두 점수에서 얻어진 점수를 상호 비교하기 위해서 검사를 응시집단의 점수분포가 정규분포라고 가정한다면 원점수가 정규분포의 평균에서 떨어진 거리(편차)를 그 집단의 표준편차를 단위로 하여 표시할 수 있고, 이 것을 표준점수라고 한다.

표준점수는 통계적 절차에 따라 어떤 척도로 옮겨놓은 것으로 가장 신뢰가 높은 척도이다. 가장 많이 사용되는 표준점수에는 Z점수, T점수, C점수(스테나인점수)가 있다.

Z점수

Z점수는 가장 대표적인 표준점수로 원점수 평균으로부터의 편차를 표준편차의 단위로 나타낸 것이다. Z점수는 +(양)의 값을 가질 수도 있고, -(음)의 값을 가질 수 있다. Z점수는 평균이 0이고 표준편차가 1이며, 전체 사례수를 1로 하는 특수한 분포이다. Z점수는 여러 분포에서 얻어진 점수를 비교하는데 유용하고, 더하고 빼고, 곱하고 나누는 것이 가능하다.

\(X\)를 한 개인의 원점수, \(M\)을 평균, \(S\)를 표준편차라고 하면, Z점수는 다음과 같다.$$Z=\frac{X-M}{S}$$T점수

원점수 분포가 정상분포를 이루면 Z점수는 대략 -3~3의 값을 갖는다. Z점수는 소수점 이하의 값을 갖고, -(음)의 값을 가질 수도 있다. 이러한 불편함을 해소하기 위해 T점수를 도입했다.

T점수의 평균은 50, 표준편차는 10이며, 분포는 20~80의 범위 안에 든다. 다음은 T점수의 산출공식이다.$$T=10Z+50$$T점수는 대학수학능력시험(수능) 또는 전국연합학력평가에서 표준점수로 이용된다.

C점수(스테나인)

스테나인의 원어는 'standard nine-point score'로 9개의 범주를 가진 표준점수로서 평균을 5, 표준편차를 2로 표준화한 점수이다. 

스테나인 점수는 원점수의 분포를 정규분포로 가정하고 가장 낮은 점수부터 높은 점수로 배열한 후, 맨 하위 4%에 1을, 그 다음 7%에 2를, 그 다음 12%에 3을, 그 다음 17%에 4를, 그 다음 20%에 5를 부여하며, 상위 부분은 같은 비율 역순으로 6, 7, 8, 9를 부여한다.(아래 그림 참고)

아시아경제     

*H점수는 평균이 50, 표준편차가 14인 점수이다.


참고자료:

교육평가, 서동기 외 9인, 동문사

https://m.news.zum.com/articles/41346809

반응형
Posted by skywalker222