بررسی تطبیقی شاخص های دو نظریه کلاسیک آزمون و پرسش و پاسخ (IRT)

دشواری سوال

مفهوم دشواری در هر دو نظریه IRTو [1]CTT ، احتمال پاسخ صحیح تعریف می شود و نه میزان دشواری مشاهده شده و یا تلاشی که برای حل سوال نیاز است. در CTT ، شاخص دشواری «p» نسبتی از آزمودنی ها می باشند که به سوال پاسخ صحیح داده اند؛« بعضی مواقع p‌، p- value خوانده می شود که در این قسمت از بیان آن امتناع شده است به این دلیل که با مفهوم p-value که معناداری آماری فرضیات را نشان می دهد ، اشتباه نشود».برای سوالات چند ارزشی نیز، دشواری سوال،برابر میانگین نمرات می باشد. بنابراین، یک سوال دشوارتر در CTT شاخص دشواری پایین تری را دارا می باشد.

در IRT شاخص دشواری «b» در همان مقیاس توانایی یا صفت می باشد. این مقیاس دل به خواهی است اما اغلبدر توزیع توانایی به یک توزیع با میانگین صفر و انحراف معیار 1 محدود می شود. دشواری سوال نقطه ای از توانایی است که در آن 50٪ آزمودنی ها «یا کمی بیشتر ، بسته به مدل» انتظار می رود که به سوال پاسخ صحیح بدهند. برای مثال 2/0 b= ، نشان می دهد که 50٪ آزمودنی ها با سطح توانایی 2/0 به این سوال پاسخ صحیح خواهند داد و درصد بیشتری از آزمودنی ها با سطح توانایی 5/0 به این سوال پاسخ صحیح خواهند داد.بدین ترتیب در مقایسه با CTT،در IRT سوالات دشوارتر، درجات دشواری بالاتری خواهند داشت.

تمیز سوال

ضریب تمیز یا تشخیص سوال به این معنی است که سوال ، آزمودنی ها با سطوح مختلف از سازه را ، چگونه متمایز می کند؛ بنابراین میزان بالای تشخیص مطلوب می باشد،زیرا هدف از کاربرد آزمون ها ، متمایز کردن افرادی که با سازه مورد نظر آشنا هستند از افرادی که با سازه آشنایی ندارند و یا متمایز کردن افراد با نگرش مثبت و نگرش منفی «در پرسشنامه نگرش» می باشد. در تئوری کلاسیک ، ضریب دو رشته ای نقطه ای[2] شاخص معمول تمییز می باشد.این ضریب میزان همبستگی بین نمره سوال و نمره کل آزمون را نشان می دهد بنابراین هنگامی که این شاخص مثبت است، آزمودنی هایی که به سوال پاسخ صحیح داده اند «یا با سوال موافق بوده اند»، در نمره مجموع سایر سوالات هم ، نمره بالایی کسب کرده اند و هرچه ضریب دو رشته ای نقطه ای برای سؤال بالاتر باشد میزان تمییز آن سوال بیشتر خواهد بود.

در تئوری پرسش-پاسخ این شاخص با نماد a نشان داده می شود. این شاخص گاهی اوقات شیب نیز نامیده می شود ، زیرا به این نکته اشاره دارد که احتمال پاسخ صحیح چگونه با تغییر سطح توانایی ، شیبش تغییر می کند (تیسن و اورلاندو، 2001). در هر دو نظریه CTT و IRT ، مقادیر بیشتر شیب، نشان دهنده قدرت تمییز بیشتر می باشد.

اعتبار و خطای استاندارد اندازه گیری

در تئوری کلاسیک اعتبار، نسبت واریانس نمره واقعی به واریانس مشاهده شده، و یا مجذور همبستگی بین نمرات مشاهده شده و نمرات واقعی تعریف شده است« نمره واقعی در نظریه کلاسیک میانگین فرضی نمرات مشاهده شده در بی نهایت تکرار آزمون در شرایط مشابه می باشد».طبق تعریف میزان همبستگی میان دو فرم موازی یک آزمون نیز تخمینی از ضریب اعتبار دو فرم آزمون می باشد. اعتبار باز آزمایی هم میزان همبستگی بین دو بار اجرای آزمون در دو موقعیت می باشد.

ضریب آلفا «معادل KR20 در سوالات دو ارزشی» بر آوردی از ضریب اعتبار براساس میزان همبستگی تمام مجموعه های تصادفی از سوالات یک آزمون می باشد، نشان دهنده ی درجه ثبات یک آزمون می باشد.

خطای استاندارد اندازه گیری در نظریه کلاسیک براساس تعریف زیر محاسبه می شود.

واریانس خطا + واریانس نمرات واقعی = واریانس نمرات مشاهده شده

بنابراین:

هنگامی که این تعریف از خطای استاندارد اندازه گیری استفاده شود بدون در نظر گرفتن نمره آزمودنی در آزمون، تنها یک خطای استاندارد اندازه گیری محاسبه خواهد شد؛ و این میزان خطا فقط با داشتن انحراف معیار نمرات آزمودنی ها در آزمون و یکی از شاخص های اعتبار آزمون «برای مثال ضریبآلفا[3] » قابل محاسبه خواهد بود.

در IRT‌ از تابع آگاهی[4] به منظور محاسبه خطای معیار اندازه گیری و میزان اعتبار آزمون استفاده می شود. آگاهی آزمون، تابعی از میزان توانایی براساس سوالات آزمون می باشد؛ بنابراین آگاهی آزمون براساس سطوح مختلف توانایی، تغییر می کند(ويس ويوس، 1994). خطای استاندارد اندازه گیری هم همانگونه که در شکل 1-1 نیز نشان داده شده است، از طریق معکوس ریشه دوم آگاهی برای سطوح مختلف توانایی قابل محاسبه می باشد، پس:

= شکل 2-1تابع آگاهی و خطای استاندارد اندازه گیری

بنابراین در هر دو نظریه میزان آگاهی و اعتبار رابطه ی معکوسی با میزان خطای استاندارد اندازه گیری دارد، اما در IRT تابع آگاهی برای هر سوال به طور جداگانه و برای کل آزمون قابل محاسبه می باشد. این قابلیت باعث می شود سوالات مختلف،در آزمون ها متفاوت را بتوان با همدیگر ترکیب کرد و میزان آگاهی آزمون جدید را از جمع میزان آگاهی های سوالات، قبل از اجرای آزمون محاسبه نمود در حالی که با کمک نظریه کلاسیک این عمل امکان پذیر نمی باشد. همچنین در IRT ، براحتی می توان زیر مقیاس های یک آزمون را حذف کرد و میزان آگاهی آزمون جدید را با کم کردن میزان اگاهی زیر مقیاس حذف شده محاسبه نمود، در حالی که در CTT برای رسیدن به چنین قابلیتی به محاسبات پیچیده تر از یک تفریق ساده احتیاج است.

[1]Classic Test Theory

[2]Point bi serial

[3]Cronbach α

[4]Information Function

بررسی تطبیقی شاخص های دو نظریه کلاسیک آزمون و پرسش و پاسخ (IRT)

مطالب مشابه :

خطای استاندارد برآورد و تفسیر آن

استاندارد کردن اسید و باز- تیتراسیون خنثی سازی

آمار استنباطی:

آزمون خطای استاندارد میانگین

فاطمه8

بررسی تطبیقی شاخص های دو نظریه کلاسیک آزمون و پرسش و پاسخ (IRT)

سیستم های ابزار دقیق ، کالیبراسیون و خطا

سیستم های ابزار دقیق ، کالیبراسیون و خطا

نمونه سوال آمار استنباطی