سنجش اعتبار نتایج در آزمون های روانشناسی

برای هر آزمونی که در روانشناسی برگزار می شود لازم است بتوان آن آزمون را به نحوی اعتبار سنجی کرد. اصلی ترین روشهای اعتبار سنجی جزو شاخه روان سنجی هستند زیرا رویکرد در روانسنجی این است که بتوان داده های کیفی و شهودی در روانشناسی را به نحوی امتیاز دهی کرد تا بتوان آنها را با روشهای آماری آنالیز نمود. اعتبار سنجی ها معمولا به یک یا چند روش از پنج روش زیر انجام می شود:

 1. اعتبار محتوایی: در این روش سعی می شود با کمک متخصصین همان حوزه، دیدگاه جامعی از موضوع کسب شده و سپس به آنالیز از تمام جهات پرداخته شود. یک روش کاربردی برای تشخیص پارامترهایی که باید آنالیز شود آن است که از چند نفر متخصص خواسته شود نظر خود را درمورد یک آنالیز بگویند مثلا از 10 کارشناس منابع پرسیده شود که «آیا تست هوش برای کارمندان در زمان استخدام لازم است؟». اگر بیش از 50% بگویند که لازم است، آنگاه این تست نیز باید انجام شود. حالا باید با توجه به آن شغل، کمینه و بیشینه مشخص شود تا واجدین شرایط انتخاب شوند.
 2. اعتبار همگرایی: گاهی ممکن است از چند پایامتر برای آنالیز یک موضوع بهره ببریم. در این شرایط باید مشخص شود که نتایج این پارامترها چقدر با یکدیگر همپوشان و چقدر از هم فاصله داشته اند. مثلا می خواهیم آزمون اعتماد به نفس را بوسیله بررسی دو پارامتر عزت نفس، و میزان برون گرایی برگزار کنیم بنابراین باید در انتهای آزمونها، نتایج هردو آزمون در یک راستا باشند نه در تضاد با یکدیگر.
 3. اعتبار معیار: از این روش برای صحت سنجی در نتایج یک آزمون استفاده می شود. در این روش باید از پارامترهای یکسان یا نزدیک به هم برای سنجش میزان درستی آزمون استفاده کرد. مثلا وقتی از دانش آموزان آزمون IQ گرفته می شود، نتایج این آزمون باید با نمرات ریاضی در پایان ترم همخوانی داشته باشد وگرنه آزمون به دلیلی غلط برگراز شده است.
 4. اعتبار ساختاری: این روش تقریبا تمام روشهای اعتبار سنجی را شامل می شود و نسبت به بقیه کاملتر است. روش اعتبار سنجی ساختاری ارتباط نزدیکی با پارامترهای قابل اندازه گیری در آمار دارد و این جهت می توان آنرا در روان سنجی طبقه بندی کرد. در اعتبار سنجی ساختاری، نتایج و نحوه برگزاری آزمون ها از سه جهت بررسی می شوند:
  الف: آیتم های آزمون تا چه میزان با دقت انتخاب شده اند؟ (اعتبار محتوایی)
  ب: آیتم های موجود در آزمون تا چه میزان از یکدیگر تفکیک شده اند تا موضوعات را به تفکیک، با دقت بیشتر، ومستقیم تر بررسی کنند؟ (اعتبار همگرایی)
  ج: نتایج آزمون برگزار شده چقدر با نتایج آزمونهای قبلی و مستندات موجود همخوانی دارد؟ (اعتبار معیار)
 • سپس نتایج سوالات فوق در شش قالب بررسی می شود:
  الف: پس از مشخص شدن اعتبار آزمون از روش فوق، اگر اعتبار آزمون کم باشد، نتایج ناشی از تصمیم گیری بر اساس آن چقدر خطرناک است؟ آیا هنوز می توان به نتایج آزمون با یان سطح اعتبار استناد کرد؟ (مثلا این آستانه ریسک در صنایع دارویی بسیار شدیدتر از سایر صنایع است)
  ب: آیتم هایی که در آزمون بررسی شدند تا چه میزان برای نتیجه ای که گرفته شد مفید بودند؟
  ج: آیا نتایجی که آزمون گرفته است، با نتایج بررسی های نظری و علمی همخوانی دارد؟
  د: آیا آزمون در جامعه آماری قابل توجهی و مناسبی برگزار شده است؟
  ه: آیا نتایج آزمون می تواند معنی مشخصی داشته باشد و چیزی را پیش بینی کند؟
  و: نتایج این آزمون را تا چه میزان می توان به جامعه بزرگتر تعمیم داد؟ (مثلا نمی توان نتایج آزمون بر مهندسان مکانیک را به جامعه زنان خانه دار تعمیم داد)
  ز: پارامترهای آزمون باید باهم همخوانی داشته باشند یعنی نمی توان از دو پارامتر متضاد به نتیجه ای واحد رسید. مثلا حضور داوطلبانه در جشن و ناامیدی شدید از شرایط زندگی نمی توانند بصورت همزمان باعث شادی شوند.

بر اساس نظریات: لاوشه، شیپر، پاسکو، کرونباخ، میل، کمبل، میسک، تروشیم، جونز، بورسبوم، برگسن، کلی، براون، پولیت، میس، گیون

ترفندهای اعتبار سنجی و اصلاح آزمونها:

ترفندهای اعتبار سنجی کمک می کنند تا انجام این کار آسانتر شده و در زمان و هزینه صرفه جویی شود:

 1. ارجاع محدود: بهتر است آزمون در ابتدا بر جامعه آماری کوچکی اجرا شده و درصورت داشتن اعتبار کافی، بر جامعه بزرگتری اجرا شود.
 2. گروه های شناخته شده: می توان آزمون را ابتدا بر روی گروه هایی که از قبل نسبت به آنها شناخت داریم انجام دهیم تا بتوانیم راحت تر ارزیابی کنیم. مثلا می دانیم که یکی از کارمندان دارای افسردگی است بنابراین راحت تر می توانیم دلیل پاسخ به برخی پارامترها تحلیل کنیم. سپس آزمون را به نحوی اصلاح می کنیم که مثلا افسردگی تاثیر کمتری بر پاسخها داشته باشد. و در نهایت آزمون را در مقیاس بزرگ اجرا می کنیم.
 3. آزمون فرضی: می توان ابتدا آزمون را بصورت فرضی برگزار کرد یعنی داده هایی که از قبل درمورد همکاران جمع آوری کرده ایم را با نتایج سوالات تطبیق می دهیم. مثلا می دانیم که کارمندان افسرده، نسبت به ظاهر یکی از محصولات چه نظری داشته اند پس احتمالا نظر سایر افراد افسرده نیز همینگونه خواهد بود (این نتایج صرفا با فرض و بدون انجام آزمون و فقط با داده های قبلی اخذ شده است). حالا آزمون را به نحوی اصلاح می کنیم که افسردگی بر نتایج تاثیر نداشته باشد و آزمون را در مقیاس بزرگ اجرا می کنیم. توجه شود که داده های قبلی باید حتما مستند شده و قابل استناد باشند نه صرفا دیدگاه ما.
 4. بررسی گفتاری: برای آنکه بفهمیم چقدر توانسته ایم منظور خود در آزمون را به مخاطبین انتقال دهیم، ابتدا آزمون را در جامعه آماری کوچکی اجرا می کنیم. سپس برایشان توضیح می دهیم که منظور ما از سوالات چه بوده است و دوباره آزمون را اجرا می کنیم. اگر نتایج در قبل و بعد از توضیح با یکدیگر تفاوت چشمگیری داشته باشد، یعنی آزمون گویا نیست و باید سوالات را دوباره و به نحو واضح تری طراحی کرد.
 5. شبکه نومولوژیکی: برخی پارامترهای مرتبط با یکدیگر حتی نیاز به آزمون هم ندارندمثلا رابطه بین هوش و حافظه واضح است بنابراین وقتی می دانیم که ضریب هوشی یک کارمند بالا است، نیازی نیست که مجددا از او برای سنجش حافظه نیز آزمون گرفته شود. مفاهیم مرتبط در داخل سازمان که در جایی خارج از سازمان عمومت ندارد (مثلا نتایج کنترل کیفیت جوشکاری و رابطه آن با رضایت شغلی برای کارگران خط تولید) را می توان از قبل شناسایی کرد. این شبکه ارتباطی بین اجزای مرتبط را می توان تا جایی گسترش داد که یک یا چند پارامتر بتوانند کل نیازهای برگزاری آزمون را رفع کنند.
 6. حدس فرضیه: یکی از خطرناکترین اشتباهات در نتیجه گیری از یک آزمون است. هیچ چیزی نباید بر مبنای تفکرات قبلی حدس زده شود بلکه همه چیز باید بررسی و آنالیز شده و بر با نگاه بیطرفانه نتیجه گیری شوند. مثلا در یک کارخانه مشاهده شد که وقتی نور در خط تولید افزایش می یابد، کارکرد کارگران بیشتر می شود. آنها نتیجه گرفتند که: چون کارگران فکر می کنند که ممکن است بیشتر دیده شوند،باید بهتر کار کنند درحالیکه این تغییر در تولید ناشی از کمبود نور در گذشته بود.
 7. تعصب در طراحی آزمایش: این اشتباه خطرناک که ممکن است عمدی یا ناخودآگاه باشد، باعث می شود آزمون به نحوی طراحی شود که نتایجی برای تایید یا رد یک تفکر بگیرد. طراحی آزمون باید کاملا بیطرفانه باشد.
 8. انتظارات محقِق: در طراحی آزمون باید دقت کرد که سوالات باعث نشود که ذهن مخاطب به سمتی متمایل شده و بر پاسخگویی به سوالات تاثیر بگذارد. این موضوع می تواند بصورت خودآگاه، ناخودآگاه، و یا حتی تصادفی اتفاق افتد مثلا ممکن است نحوه چینش سوالات باعث شود که مخاطب در بین سوالات یک نوع توالی را شناسایی کند درحالیکه طراح سوالات اصلا چنین قصدی نداشته است.
 9. تعریف محدود نتیجه پیشبینی شده: ممکن است سنجه های آزمون آنقدر کم باشند که نشود نتیجه ای از آن گرفت مثلا فقط سنجش رضایت شغلی برای سنجش رضایت کارمندان از زندگی که مشخص است تنها با این پارامتر نمی توان به نتیجه رسید.
 10. متغیر مخدوش: ممکن است پس از نتیجه گیری از یک آزمون، مشخص شود که یک متغیر بسیار مهم که تاثیر بسیاری در نتیجه گیری داشته است فراموش شده. در این حالت نباید نتیجه گیری کرد بلکه باید آزمون را تکمیل نمود.

بر اساس نظریات: کرونباخ، لووینگر، کین، مسیک، کمپبل، هاموند، وستن، رامیل جونیور، انگل، اکرمن، میفلین، ریچموند، گولد، مکنزی