IRT（項目反応理論）とは？【評価3.0】試験問題作成者なら必読の専門理論

IRT項目反応理論とは？と表示されたバナー画像

新型コロナウィルス感染症の影響で、あらゆる物事がオンラインに移行する昨今、さまざまな試験のオンラインテスト化が進んでいます。
各種資格試験はもちろんのこと、社内の昇格試験や学校のテストもWeb上で行うことが新常識になりつつあります。

オンラインテスト化で頭を悩ませるのが試験問題作り。作った問題の難易度や形式が適切かどうか、気をもんでいる問題作成担当者の方も多いのではないでしょうか？

この記事では、作成した問題が適切かどうかを評価するIRT（項目反応理論 / 項目応答理論: Item Response Theory / Item Latent Theory）について紹介します。

IRT（項目反応理論）とは
IRTはテスト評価3.0!?
IRTでテストはどう変わる？
- 等化
- CAT（コンピュータ適応型テスト）
IRTが実際に使われている試験
WisdomBase（ウィズダムベース）でもIRTの実践が可能

IRT（項目反応理論）とは

Wikipediaの項目応答理論 (IRT) の説明によると、IRTとは、

評価項目群への応答に基づいて、被験者の特性（認識能力、物理的能力、技術、知識、態度、人格特徴等）や、評価項目の難易度・識別力を測定するための試験理論である。
Wikipedia: 項目応答理論

とのこと。

簡単に言うと、項目（IRTでは1つ1つの問題、各設問のことを項目と呼びます）に対する受験者の応答（正解だったか不正解だったか）のデータを見ることで、その設問の難易度が高いのか低いのか、また良問かどうか（能力の高い、低いを適切に識別できる問題かどうか）が分かり、それにより受験者の能力も正しく評価できますね、という考え方です。

IRTをきちんと理解するためには、統計などの数学の知識が必要ですが、この記事では数式は使わずあくまで雰囲気を掴んでいただけるよう、IRTの概略を紹介します。

と言いつつ早速、数式で申し訳ないのですが、IRTには以下の数式が出てきます。

項目特性曲線が加法的であることを示す数式

左側の T(θ) はテスト全体の難易度や良問かどうかを意味するものと思ってください。イコールの後の pi(θ) は個々の設問の難易度や良問かどうかです。間にΣ（シグマ）がありますが、これは問題1、問題2、問題3…を全部足しあわせていくという意味です。

つまり、テスト全体の難易度や良問かどうかは、各設問の特徴を足し合わせたものという意味です。

そんなこと偉そうに数式使って言わんでも、当たり前やろ！

と思うかもしれませんが、これはIRTの大事なポイントの1つです。試験全体の良し悪しを評価するためには、個々の問題1つ1つを丁寧に見ていく必要があるということです。

IRTはテスト評価3.0!?

なぜ設問1問1問を見ることが大切なのでしょうか。例をとって説明してみます。

評価1.0: テストのスコアだけを見る

例えばあなたに10歳のお子さんがいて、100点のテストを持って帰ってきたとします。さて、あなたは100点のスコアだけを見て、自分の子どもを褒めるべきでしょうか？また逆に0点のテストを持って帰ってきた場合、子どもを叱るべきでしょうか？

答えはまさにテストの設問によります。もし、100点のテストの問題が、1問だけしかなく、

問1. 自分の氏名をひらがなで書いてみましょう。

だとしたら、100点を取って当たり前でしょう。また、0点のテストの問題が、

問1. 全ての3よりも大きな偶数は2つの素数の和として表すことができることを証明しましょう。

だとしたら、0点でも叱ってはいけません（ちなみにこの問題は2021年現在も数学上誰も証明できていないゴールドバッハ予想という未解決問題です）。

仮にテストのスコアだけで評価する評価方法を評価1.0と呼ぶとするなら、これはどうも評価方法として適切ではない、ということがイメージできますね。

評価2.0: 偏差値を見る

評価1.0から進化した評価方法として偏差値があります。入学試験や資格試験などで実際に目にした方も多いと思います。

先ほどの例で言うと、全員が100点のテストだと100点をとっても偏差値は50です。全員が0点のテストも同じく、0点なら偏差値50です。

偏差値は50を中心にして、受験者のスコアのばらつきを勘案して、平均値よりも高い方なら偏差値50以上に、平均値よりも低い方なら偏差値50以下になるような値です。テストのスコアだけを見る方法よりも、進化したいわば評価2.0の方法と言えるでしょう。

評価3.0: IRTの登場

さて、全員100点、全員0点といった極端なテストではなく、適度にばらつきがあって、偏差値で評価できるようなテストは果たして完璧なテストと言えるでしょうか？

例えば100点満点、全20問の世界史の試験があって、1問だけこんな問題が紛れ込んでいる状況を考えてみましょう。

問13. 郷ひろみの本名を答えよ。（配点30点）

この問題だけ間違えて70点を取った人とこの問題も正解できて（ちなみに正解は「原武裕美」（はらたけひろみ）です。本当に「ひろみ」なんですね。）100点を取った人がいて、どちらが世界史の能力が高いと言えるでしょうか？偏差値の観点からは当然100点を取った人の方が偏差値は高くなりますが、果たしてその場合の偏差値に意味はあるのでしょうか？

ここで登場するのがIRTです。

IRTでは項目特性曲線と呼ばれるグラフを使って、問題を評価することができます。問題1問1問についてグラフを作成します。横軸に今回のテストの合計点を、縦軸に対象の問題の正答率を取ります。

空っぽのグラフ

例えば、

問5. フランス革命が起きたのは何年か答えよ。（配点5点）

という問題について、グラフを作ってみます。
横軸の一番左の0点については、テスト全体の合計点が0点だった人の中に、この問題を正解した人が何人いたか、というデータからグラフ上に点を打ちます。
合計0点の人は、もちろんこの問題も不正解なので、縦軸も0のところに点がプロットされます。

次に、テスト全体の合計点が10点だった人はどうでしょうか。合計点が10点の人の内、3%の人が問5に正解していたら、横軸が10点のところについて、縦軸はちょっとだけ0から離れたところに点がプロットされます。

この作業を続けて、各点を線で結んでグラフを作成すると、グラフは以下のようなS字のカーブを描いた曲線が得られるはずです（なめらかな曲線になるためには、受験者が相当多くないといけないので、数が少ない場合はガタガタのS字になります）。

一般的な項目特性曲線のグラフ

この曲線が項目特性曲線です。

項目特性曲線の横軸

今回は横軸にこのテストの合計点を取りましたが、項目特性曲線の定義では、受験者の能力（今回の試験の場合、世界史の能力）を横軸に取ります。世界史の真の能力を軸にとることなんてできるの？と思われるかもしれませんが、そういうものがあると推定して軸を作成する方法があります（詳細は割愛します）。

能力の高い受験者は難しい問題を解く可能性が高い、という仮定を置けば、この曲線がきれいなS字に近いほど、能力の見極めに適した良問と捉えられます。

特にS字の真ん中の斜めの傾斜が急な問題ほど、能力の見極めに適しています。
どういうことかと言うと、例えば横軸の60くらいのところに、S字の真ん中が急にぐっと右上に曲がるような問題の場合、60を境に右（正解する人）と左（不正解の人）がぱきっと明確に分かれるので、この問題は受験生の能力が60に到達しているのかどうかを評価しやすい問題と言えます。

では、先ほどの郷ひろみの問題について、グラフを描くとどんなグラフになるでしょうか？みなさんも少し考えてみましょう。

0点の人は正答率0%なので原点に点があるのは当然として、この問題は世界史の能力に関係のない問題なので、世界史の点数が高い人でも低い人でも、正答率はそんなに変わらないため、以下のようなグラフになると思います（世界史が得意な人は記憶力が良いはずで郷ひろみの本名も覚えている確率が高いはず、郷ひろみも芸能界の歴史という世界の歴史の1つなんだから正答率に影響があるはず、という反論については目をつぶりましょう…）。

郷ひろみの問題の項目特性曲線ぜんぜんS字になってないですね！

このように、各問題の項目特性曲線の形から、その問題が能力を見極めるのに役立つ良問なのか、または、問題を削除するなり、変えるなり、配点を変更すべき悪問なのかを明らかにできます。

また、S字の真ん中の部分が左に寄っている場合は、簡単な問題、右に寄ってる場合は難しい問題ということも分かるので、問題の難易度も評価することができます。

IRTの考え方を用いて、1つ1つの設問に注目することで、いろいろなことが分かってきますね。

IRTでテストはどう変わる？

IRTを試験作りに活用することで、さまざまなメリットが得られます。ここでは2つの活用法を紹介します。

等化

まずは「等化」です。等化とは、異なるテストや異なる受験生の差を平準化し、共通のものさしで測れるようにすることです。

例えば、お笑いショーレースで、いつも低めの得点を出す審査員と、高い得点を付けてくれる審査員がいる場合や、社内評価で甘々でいつも高評価をくれる上司と、常に厳しく低い評価しかくれない上司がいる場合などで、同じ70点を取ったとしても、それぞれでものさしが異なるため比較することができません。こんなとき項目特性曲線などで評価者の配点の特性が分かっていれば、評価者に依存しない真の得点を計算できるようになります。

CAT（コンピュータ適応型テスト）

IRTを活用するこでCAT（コンピュータ適応型テスト: Computer-Adaptive Testing, Computerized Adaptive Test）ができるようになります。

これは、直前の問題の正解、不正解に応じて、次の問題が変わるようなテストです。

先ほどの項目特性曲線の例で言うと、能力が高めの人に、S字のぐにゃっとした部分が左に寄った問題（簡単な問題）ばかりを出してもその人の能力はなかなか評価できません。逆に、能力が低めの人に難しい問題（S字の曲がったところが右寄り）ばかり出しても、その人が10のレベルまで分かっているのか20のレベルまで分かっているのかが評価できません。

項目特性曲線が得られていれば、その人の能力に応じた問題を出題し、どのレベルまで分かっているのかを詳細に見極めることができます。

CATについてはこちらの記事でもまとめていますのでご参考ください。

IRTが実際に使われている試験

IRTは欧米では古くから活用され、学校現場にも浸透しています。日本でも最近になってIRTを活用したテストが増えています。

みなさんも「TOEICのテストは全問正解しなくても満点の990点になることがあるらしい」とか「まぐれで正解しても大したスコアにならないらしい」ということを耳にしたことがあるかもしれません。

実際TOEICのスコアリングにも、IRTは活用されています。

その他にもTOEFL、GTEC、 CASECと言った英語の民間試験や、ITパスポート試験、また、弊社システムでもオンライン講座を取り扱いしている、日本語能力試験（JLPT: Japanese Language Proficiency Test）、BJTビジネス日本語能力テスト、などにもIRTが活用されています。

IRTの考え方を活用し、みなさまの優れた問題作成の一助になれば幸いです。