Tag Archives: psikometrika

Protokol Pengembangan dan Validasi Alat Ukur Psikologi: Dari Konsepsi hingga Penggunaan Luas

Pengembangan dan validasi alat ukur psikologi adalah proses yang panjang, sistematis, dan iteratif. Ini bukan sekadar serangkaian analisis statistik, melainkan studi komprehensif yang melibatkan teori, desain, pengujian empiris, dan penyempurnaan. Urutan studi dan analisis yang diperlukan dapat bervariasi tergantung pada model pengembangan yang digunakan (misalnya, Messick’s Unified Concept of Validity, Kane’s Argument-Based Approach to Validation), tetapi secara umum, ini adalah alur yang sering diikuti:

Fase 1: Konseptualisasi dan Desain Awal (Pre-Empiris)

Ini adalah fondasi dari seluruh proses, di mana kerangka teoritis alat ukur dibangun.

  1. Studi Konseptualisasi/Definisi Konstruk:

    • Tujuan: Mendefinisikan secara jelas konstruk psikologi yang akan diukur. Apa itu? Apa saja dimensinya? Bagaimana hubungannya dengan konstruk lain?
    • Analisis/Studi:
      • Tinjauan Pustaka Komprehensif: Mengumpulkan dan mensintesis literatur yang ada tentang konstruk.
      • Wawancara/FGD dengan Ahli/Populasi Target: Menggali pemahaman dan pengalaman ahli atau individu dari populasi target tentang konstruk.
      • Analisis Konseptual: Mengembangkan definisi operasional dan teoretis yang kuat untuk konstruk.
    • Output: Definisi konstruk yang jelas, identifikasi dimensi (jika multidimensional), dan kerangka teoretis.
  2. Studi Pengembangan Item (Item Generation):

    • Tujuan: Membuat kumpulan item awal yang relevan, jelas, dan representatif untuk mengukur konstruk.
    • Analisis/Studi:
      • Brainstorming/Penulisan Item: Berdasarkan definisi konstruk, item-item ditulis.
      • Review Ahli (Content Validity/Expert Review): Ahli materi dan/atau psikometri meninjau item untuk relevansi, kejelasan, kesesuaian bahasa, dan cakupan konstruk.
      • Focus Group Discussion (FGD) dengan Populasi Target: Menguji pemahaman item, respons awal, dan potensi ambiguitas dari perspektif calon responden.
    • Output: Kumpulan item awal yang telah direvisi berdasarkan masukan kualitatif.

Fase 2: Uji Coba Awal dan Perbaikan (Pilot Testing & Refinement)

Setelah item awal siap, dilakukan pengujian skala kecil untuk mengidentifikasi masalah awal.

  1. Studi Uji Coba Awal (Pilot Testing):

    • Tujuan: Mengidentifikasi item yang bermasalah, instruksi yang tidak jelas, atau masalah format sebelum pengumpulan data skala besar.
    • Analisis/Studi:
      • Pengumpulan Data Skala Kecil: Administrasi instrumen kepada sampel kecil dari populasi target (sekitar 30-100 orang).
      • Analisis Deskriptif Item: Melihat distribusi respons, rata-rata, standar deviasi, dan missing data untuk setiap item.
      • Analisis Kualitatif/Wawancara Kognitif: Meminta responden untuk “berpikir keras” saat menjawab item atau menanyakan mengapa mereka memilih respons tertentu.
    • Output: Identifikasi item yang perlu direvisi atau dibuang, perbaikan instruksi dan format.

Fase 3: Uji Coba Utama dan Analisis Psikometris Mendalam (Main Field Testing & Psychometric Analysis)

Ini adalah fase di mana data skala besar dikumpulkan dan analisis statistik yang mendalam dilakukan.

  1. Studi Uji Coba Utama (Main Field Testing/Large-Scale Data Collection):

    • Tujuan: Mengumpulkan data dari sampel yang representatif dan cukup besar untuk analisis psikometris yang robust.
    • Analisis/Studi:
      • Pengumpulan Data Skala Besar: Administrasi instrumen kepada sampel yang lebih besar (biasanya ratusan hingga ribuan responden, tergantung pada kompleksitas model dan tujuan).
    • Output: Dataset yang siap untuk analisis psikometris.
  2. Studi Validitas Konstruk (Construct Validity):

    • Tujuan: Membuktikan bahwa alat ukur benar-benar mengukur konstruk yang dimaksud.
    • Analisis/Studi:
      • Analisis Faktor Eksploratori (EFA): Jika struktur dimensi belum jelas atau ingin diverifikasi.
      • Analisis Faktor Konfirmatori (CFA): Untuk menguji hipotesis tentang struktur dimensi yang telah didefinisikan secara teoritis.
      • Analisis Rasch Model (atau IRT lainnya):
        • Uji Unidimensionalitas: Memastikan item mengukur satu dimensi dominan (atau dimensi yang ditentukan dalam model multidimensional).
        • Item Fit Analysis: Mengidentifikasi item yang tidak sesuai dengan model (misfit).
        • Person Fit Analysis: Mengidentifikasi responden dengan pola respons yang tidak biasa.
        • Category Thresholds (untuk politomus): Memastikan kategori respons berfungsi secara berurutan.
        • Item Measure & Person Measure: Estimasi kesulitan item dan kemampuan person.
        • Wright Map: Visualisasi targeting item dan person.
    • Output: Bukti statistik tentang struktur dimensi dan bagaimana item/person sesuai dengan model.
  3. Studi Reliabilitas (Reliability):

    • Tujuan: Menilai konsistensi dan stabilitas pengukuran.
    • Analisis/Studi:
      • Internal Consistency:
        • Cronbach’s Alpha: Ukuran paling umum.
        • Rasch Person Reliability/Separation Index: Dalam konteks Rasch, ini adalah ukuran yang lebih tepat untuk reliabilitas dan kemampuan alat ukur membedakan individu.
      • Test-Retest Reliability: Administrasi ulang instrumen pada waktu berbeda kepada sampel yang sama.
      • Inter-Rater Reliability: Jika ada penilai/rater (misalnya, Cohen’s Kappa, ICC).
    • Output: Koefisien reliabilitas yang mendukung konsistensi pengukuran.
  4. Studi Validitas Kriteria (Criterion-Related Validity):

    • Tujuan: Menilai seberapa baik skor alat ukur berhubungan dengan kriteria eksternal yang relevan.
    • Analisis/Studi:
      • Validitas Konkuren (Concurrent Validity): Korelasi dengan kriteria yang diukur pada waktu yang sama.
      • Validitas Prediktif (Predictive Validity): Korelasi dengan kriteria yang diukur di masa depan.
    • Output: Koefisien korelasi yang menunjukkan hubungan dengan kriteria.
  5. Studi Validitas Konvergen dan Diskriminan (Convergent & Discriminant Validity):

    • Tujuan: Menilai apakah alat ukur berkorelasi tinggi dengan alat ukur lain yang mengukur konstruk serupa (konvergen) dan berkorelasi rendah dengan alat ukur yang mengukur konstruk berbeda (diskriminan).
    • Analisis/Studi:
      • Korelasi: Mengukur korelasi antara skor alat ukur baru dengan skor alat ukur lain.
      • Multitrait-Multimethod Matrix (MTMM): Desain yang lebih kompleks untuk menguji konvergen dan diskriminan secara simultan.
    • Output: Koefisien korelasi yang mendukung pola konvergen dan diskriminan.
  6. Studi Differential Item Functioning (DIF):

    • Tujuan: Mengidentifikasi item yang berfungsi secara berbeda untuk kelompok-kelompok yang setara dalam kemampuan laten, mengindikasikan potensi bias atau ketidakadilan.
    • Analisis/Studi:
      • DIF Analysis (menggunakan metode Rasch-DIF, Mantel-Haenszel, atau Logistic Regression DIF): Membandingkan parameter item antar kelompok.
    • Output: Identifikasi item-item yang menunjukkan DIF, klasifikasi magnitudenya, dan potensi implikasi.

Fase 4: Standardisasi, Norma, dan Manual (Standardization & Dissemination)

Setelah alat ukur terbukti valid dan reliabel, langkah selanjutnya adalah membuatnya siap untuk penggunaan praktis.

  1. Studi Standardisasi dan Pengembangan Norma:

    • Tujuan: Mengembangkan panduan untuk administrasi, skoring, dan interpretasi, serta membuat tabel norma untuk membandingkan skor individu dengan populasi.
    • Analisis/Studi:
      • Pengumpulan Data Norma: Administrasi instrumen kepada sampel yang sangat besar dan representatif dari populasi target.
      • Analisis Statistik Deskriptif: Menghitung rata-rata, standar deviasi, persentil, dan skor standar (Z-score, T-score, dll.) untuk kelompok usia, jenis kelamin, atau demografi lain.
    • Output: Tabel norma, panduan skoring, dan interpretasi.
  2. Penyusunan Manual Alat Ukur:

    • Tujuan: Menyediakan semua informasi yang diperlukan bagi pengguna alat ukur untuk mengadministrasikan, melakukan skoring, menginterpretasi, dan memahami dasar psikometris alat ukur.
    • Analisis/Studi:
      • Dokumentasi Komprehensif: Menggabungkan semua hasil dari studi sebelumnya (teori, pengembangan item, validitas, reliabilitas, DIF, norma).
    • Output: Manual alat ukur yang lengkap dan profesional.

Fase 5: Penggunaan dan Pemeliharaan Berkelanjutan (Ongoing Use & Maintenance)

Validasi adalah proses yang berkelanjutan.

  1. Studi Validasi Lintas Budaya/Populasi (Cross-Cultural/Population Validation):

    • Tujuan: Jika alat ukur akan digunakan di populasi atau budaya yang berbeda, studi tambahan diperlukan untuk memastikan ekivalensi pengukuran.
    • Analisis/Studi:
      • Analisis Invariance Pengukuran (Measurement Invariance): Menguji apakah struktur faktor dan parameter item setara antar kelompok/budaya.
      • DIF Lintas Budaya: Mengidentifikasi item yang berfungsi berbeda di budaya/bahasa lain.
    • Output: Bukti validitas dan keadilan di konteks baru.
  2. Studi Re-validasi dan Pembaruan:

    • Tujuan: Menguji ulang properti psikometris alat ukur secara berkala, terutama jika ada perubahan signifikan dalam konstruk, populasi, atau konteks penggunaan.
    • Analisis/Studi: Mengulang beberapa analisis dari Fase 3.
    • Output: Pembaruan manual atau edisi baru alat ukur.

Setiap studi di atas saling terkait dan membangun satu sama lain. Proses ini memastikan bahwa alat ukur yang dihasilkan tidak hanya mengukur apa yang seharusnya diukur, tetapi juga melakukannya secara konsisten, akurat, dan adil bagi berbagai individu.


Thanks, Gemini!

Filsafat Psikometrika

Ontologi, epistemologi, dan aksiologi adalah tiga pilar dalam filsafat ilmu pengetahuan. Ontologi membahas hakikat realitas atau “apa yang benar-benar ada”. Epistemologi  mengkaji sifat, asal-usul, batas, dan validitas pengetahuan. Aksiologi membahas nilai, etika, dan tujuan dari suatu aktivitas ilmu pengetahuan.

Dalam konteks psikometrika, ontologi berusaha menemukan jawaban atas pertanyaan: Apa sebenarnya konstruk psikologis itu? Apakah konstruk tersebut “ada” secara objektif atau hanya produk sosial? Epistemologi berusaha menjawab pertanyaan: Apa dan bagaimana kita bisa “mengetahui” sesuatu melalui pengukuran psikologis, serta apa batas pengetahuan tersebut? Sementara, aksiologi menyoroti pertanyaan: Untuk apa kita mengukur? Apa dampak penggunaan alat ukur?

Ontologi Psikometrika

Dalam dimensi ontologi, psikometrika adalah tentang definisi dan hakikat atau sifat dari konstruk psikologis yang diukur. Konstruk Psikologis adalah atribut atau karakteristik yang tidak bisa diamati langsung, misalnya: kecerdasan, motivasi, kepribadian, kecemasan, dsb. Ontologi psikometrika bertanya: Apakah konstruk ini entitas nyata di dalam diri manusia? Atau, apakah konstruk itu produk sosial-kultural, artifak yang dibuat untuk membantu pemahaman dan pengukuran?

Untuk menjawab pertanyaan-pertanyaan ontologis ini, terdapat dua pendekatan yang membantu kita: Pertama, realisme ontologis. Konstruk ada secara objektif (meski tidak langsung teramati), sehingga pengukuran berupaya merepresentasikan realitas itu. Contoh: Kecerdasan sebagai kapasitas kognitif yang nyata. Kedua, konstruktivisme sosial. Konstruk dipahami sebagai hasil interaksi sosial dan budaya. Artinya, konstruk tidak mutlak, tapi kontekstual dan dapat berubah. Contoh: Konsep “kepemimpinan” yang berbeda antar budaya.

Berdasarkan dua pendekatan ini, maka ada beberapa implikasi yang harus kita perhatikan saat mengembangkan suatu pengukuran psikologis.

  1. Pada tahap konseptualisasi tes psikologi, definisi konstruk harus eksplisit dan sesuai konteks penelitian.
  2. Pada tahap pengembangan butir, butir-butir perlu ditulis dengan konten yang relevan dengan budaya di mana penelitian hendak dilakukan. Hal ini karena, konstruk psikologis tidak selalu bersifat tetap dan universal. Penting sekali dilakukan konstruksi sosial dan analisis lintas-budaya.
  3. Pada tahap eksplorasi dimensionalitas tes, maka kita perlu memutuskan apakah konstruk merupakan satu entitas tunggal atau terdiri dari beberapa entitas/komponen yang berbeda tapi terkait. Berikutnya, hal ini akan mempengaruhi model statistik yang digunakan untuk menganalisis properti psikometrik dari tes. Pemilihan model statistik harus harus sesuai dengan realitas ontologis konstruk agar model menghasilkan hasil yang valid dan bermakna.

Epistemologi Psikometrika

Epistemologi berkaitan dengan sumber, sifat, batas, dan validitas pengetahuan. Dalam psikometrika, epistemologi berfokus pada validitas dan interpretasi skor. Dalam dimensi epistemologis, kita diajak untuk berefleksi tentang: Apa yang sebenarnya kita “ketahui” ketika kita melakukan pengukuran psikologis? Bagaimana kita tahu bahwa skor yang diperoleh benar-benar merefleksikan konstruk psikologis? Seberapa sah inferensi yang kita buat dari skor? Apa batas inferensi dari data skor ke sifat psikologis sebenarnya? Bagaimana metode dan model pengukuran mendukung validitas inferensi? Apa batas-batas pengetahuan yang dihasilkan dari alat ukur?

Psikometrika modern umumnya berlandaskan pada realism-konstruktif, yakni: konstruk psikologis dianggap ada, tapi tidak dapat diobservasi langsung. Maka dari itu, kita hanya dapat mengukurnya lewat indikator (butir). Dari respon individu terhadap butir, kita mendapatkan skor individu yang menginformasikan keberadaan atribut psikologis pada dirinya. Persoalannya, pengetahuan kita dari skor bergantung pada bukti dan argumen validitas skor tersebut, bukan hanya angka reliabilitas. Maka, kita perlu mengumpulkan bukti-bukti dukungan terhadap derajat keabsahan inferensi dari skor ke konstruk (validitas konstruk).

Apakah angka (numerik) dapat mewakili pengalaman mental atau psikologis individu? Untuk menjawab pertanyaan ini, terdapat perdebatan. Secara positivistik, ya, angka dapat merepresentasikan pengalaman psikologis, asal terstandarisasi dan model pengukurannya tepat. Sementara, dari paradigma konstruktivistik/ kritis, tidak sepenuhnya, karena makna subjektif tidak selalu direduksi ke angka. Implikasi dari perdebatan ini adalah, studi-studi psikometrika kontemporer mengakui kedua hal ini dan mulai menggabungkan metode proses-respons dan validitas konsekuensial dalam pembuktian validitas konstruk.

Apakah skor itu benar tentang individu peserta tes? Tidak. Dalam epistemologi psikometrika, skor merupakan estimasi dari atribut laten, dan selalu mengandung ketidakpastian. Sifat ini menjadi pertimbangan utama dalam model-model analisis modern, seperti Item Response Theory (IRT) dan Rasch Model, bahwa skor adalah fungsi probabilistik dari trait dan parameter item, dan bukan merupakan fakta tetap.

Pemahaman tentang epistemologi ini memiliki sejumlah implikasi:

  1. Instrumen psikologis bukan sekadar alat teknis, tapi juga produk dari teori, nilai, dan asumsi budaya. Maka dari itu, revisi terhadap tes senantiasa dilakukan sesuai dengan perkembangan teori dan nilai yang berlaku dalam budaya di mana pengukuran dilakukan.
  2. Pengukuran psikologis adalah aktivitas inferensial (penarikan kesimpulan), bukan pengambilan data objektif langsung. Dalam setiap pengukuran psikologis, selalu terdapat ruang terjadinya error pengukuran. Error pengukuran yang terjadi secara sistematis maupun acak mungkin tidak dapat dihilangkan sepenuhnya, tetapi dapat diminimalkan dengan menggunakan instrumen terstandar dan model pengukuran yang tepat.

Aksiologi Psikometrika

Aksiologi adalah cabang filsafat yang membahas nilai, etika, dan tujuan dari suatu aktivitas ilmu pengetahuan. Dalam psikometrika, aksiologi bertanya: Untuk apa pengukuran ini dilakukan? Apa nilai dan dampak sosial yang ingin dicapai?

Pengukuran yang baik harus memperhatikan aspek etika. Ruang lingkup diskusi aksiologis meliputi:

  1. Tujuan pengukuran (test use). Apakah pengukuran ini untuk diagnosis klinis, seleksi, pengembangan, atau riset? Setiap tujuan memiliki desain instrumen dan standar interpretasi tertentu.
  2. Keadilan (fairness). Apakah instrumen adil bagi semua kelompok? Ada bias atau diskriminasi? Untuk memastikan pengukuran bersifat adil bagi semua kelompok (yang berbeda-beda berdasarkan jenis kelamin, usia, variasi etnis, dan faktor demografis lainnya), maka perlu dilakukan Analisis DIF (Differential Item Functioning) dan penyesuaian konten (adaptasi budaya), agar tidak terjadi bias dan diskriminasi.
  3. Konsekuensi pengukuran. Apa dampak positif atau negatif dari keputusan yang diambil oleh test user berdasarkan skor? Maka, perlu dilakukan evaluasi validitas konsekuensial dan  pertimbangan etika.
  4. Tanggung jawab sosial. Apakah penggunaan alat menguntungkan masyarakat atau malah merugikan? Maka, pengembang tes tidak cukup hanya membuat alat tes, tetapi juga bersama stakeholder lainnya menyusun kebijakan penggunaan, pelatihan bagi pengguna agar pengguna mengerti keterbatasan dan dampak tes, dan transparansi proses-proses pengukuran. Pengembang dan pengguna alat ukur wajib bertanggung jawab menjaga kualitas, keamanan data, serta transparansi penggunaan.

Mengintegrasikan Ketiga Pilar

Ketiga pilar ini (ontologi, epistemologi, dan aksiologi) adalah fondasi yang saling melengkapi agar pengukuran psikologis tidak hanya akurat secara teknis, tapi juga bermakna, adil, dan bertanggung jawab. Misalnya, kita hendak mengembangkan alat ukur kecemasan sosial untuk mahasiswa Indonesia. Maka, secara ontologis, kita mendefinisikan kecemasan sosial sebagai konstruk laten yang muncul dari kecemasan menghadapi interaksi sosial yang dipengaruhi budaya Indonesia. Secara epistemologis, kita menggunakan model Rasch untuk memvalidasi alat, mengumpulkan bukti-bukti validitas konstruk, serta memperhatikan ketepatan estimasi skor. Dan, secara aksiologis, kita menguji apakah alat ini adil bagi mahasiswa dari berbagai latar budaya etnis, serta mempertimbangkan bagaimana hasil tes bisa digunakan untuk intervensi dan bukan malah menstigmatisasi.

Perkembangan Konstruk Self-Esteem

Pendekatan Awal: Model Unidimensional

Pada awalnya, self-esteem dianggap sebagai konsep unidimensional, di mana seseorang dikategorikan memiliki self-esteem tinggi atau rendah. Rosenberg Self-Esteem Scale (RSES) (Rosenberg, 1965) adalah salah satu alat ukur paling terkenal yang menggunakan pendekatan ini. Skala ini terdiri dari pernyataan positif dan negatif yang menggambarkan bagaimana seseorang menilai dirinya sendiri secara keseluruhan. Namun, penelitian lanjutan menemukan bahwa item positif dan negatif dalam RSES sering kali membentuk dua faktor yang berbeda. Hal ini menantang asumsi bahwa self-esteem adalah konstruk tunggal yang dapat diukur secara linear (Marsh, 1996).

Perkembangan Menuju Model Dual-Factor

Pada tahun 1990-an, muncul teori bahwa self-esteem memiliki dua dimensi utama yang dapat beroperasi secara independen:

  • Self-Esteem Positif → mencerminkan penghargaan terhadap diri sendiri, kebanggaan, dan keyakinan diri.
  • Self-Esteem Negatif → berkaitan dengan perasaan tidak berharga, rendah diri, dan ketidakpuasan diri.

Tennen & Affleck (1993) serta Owens (1993) menunjukkan bahwa seseorang dapat memiliki self-esteem positif dan negatif secara bersamaan. Misalnya, seseorang bisa merasa percaya diri dalam pencapaian akademik tetapi tetap memiliki keraguan mendalam tentang nilai dirinya dalam hubungan sosial. Dalam analisis faktor konfirmatori (CFA), model bifaktorial sering ditemukan lebih sesuai dibandingkan model unidimensional (Marsh et al., 2010).

Dimensi Self-Esteem: Global vs. Spesifik

Pada tahun 1986, Marsh & Shavelson memperkenalkan gagasan bahwa self-esteem dapat dikategorikan menjadi global dan spesifik:

  • Self-esteem global mencerminkan evaluasi menyeluruh seseorang terhadap dirinya sendiri, tanpa memperhitungkan aspek-aspek spesifik dalam hidupnya. Orang dengan self-esteem global tinggi cenderung merasa bahwa dirinya berharga dalam berbagai situasi dan aspek kehidupan.
  • Self-esteem spesifik mengacu pada evaluasi seseorang terhadap dirinya sendiri dalam domain tertentu, seperti akademik, sosial, fisik, atau pekerjaan. Misalnya, seseorang dapat memiliki self-esteem tinggi dalam bidang akademik tetapi rendah dalam interaksi sosial.

Pendekatan multidimensional ini memungkinkan pemahaman yang lebih kaya tentang bagaimana self-esteem beroperasi dalam berbagai aspek kehidupan seseorang. Sebuah skala yang hanya mengukur self-esteem global mungkin tidak cukup untuk menangkap perbedaan ini. Oleh karena itu, alat ukur modern sering kali menyertakan subskala untuk mengevaluasi domain spesifik self-esteem agar hasil pengukuran lebih akurat dan kontekstual (Marsh, 1993; Harter, 1999).

Self-Esteem Eksplisit vs. Implisit

Sejak awal 2000-an, pendekatan pengukuran self-esteem mengalami perkembangan dengan membedakan antara:

  • Self-esteem eksplisit, yang diukur melalui skala kuesioner seperti RSES dan bergantung pada laporan sadar individu tentang dirinya sendiri.
  • Self-esteem implisit, yang diukur melalui metode tidak langsung seperti Implicit Association Test (IAT) yang dikembangkan oleh Greenwald & Farnham (2000), yang mengungkap evaluasi bawah sadar seseorang terhadap dirinya sendiri.

Kadang-kadang terjadi ketidaksesuaian antara self-esteem eksplisit dan implisit. Seseorang dapat secara sadar melaporkan self-esteem yang tinggi tetapi menunjukkan self-esteem negatif dalam pengukuran implisit. Fenomena ini menunjukkan bahwa validitas pengukuran self-esteem bergantung pada metode yang digunakan (Bosson et al., 2000).

Pengaruh Budaya dalam Pengukuran Self-Esteem

Self-esteem tidak hanya bergantung pada struktur psikologis individu tetapi juga dipengaruhi oleh budaya. Markus & Kitayama (1991) menyoroti bahwa dalam budaya individualistik (misalnya, di negara-negara Barat), self-esteem sering dikaitkan dengan pencapaian pribadi dan otonomi. Sebaliknya, dalam budaya kolektivistik (seperti di Asia Timur), self-esteem lebih terkait dengan keharmonisan sosial dan penerimaan oleh kelompok.

Heine et al. (1999) menemukan bahwa orang Jepang cenderung memiliki skor self-esteem eksplisit yang lebih rendah dibandingkan orang Amerika, tetapi bukan berarti mereka memiliki self-esteem rendah. Sebaliknya, self-esteem dalam budaya kolektivistik lebih bersifat relasional dan bergantung pada hubungan sosial. Hal ini menunjukkan bahwa alat ukur yang dikembangkan dalam konteks budaya tertentu tidak selalu dapat diterapkan secara langsung di budaya lain, sehingga memerlukan adaptasi dan validasi lintas budaya (Schmitt & Allik, 2005).

Kesimpulan

Pengukuran self-esteem lebih kompleks daripada sekadar menentukan apakah seseorang memiliki self-esteem tinggi atau rendah. Perkembangannya dari model unidimensional ke model bifaktorial, pembagian self-esteem global vs. spesifik, serta eksplisit vs. implisit menunjukkan bahwa alat ukur harus dirancang dengan hati-hati untuk memastikan validitas konstruknya. Selain itu, faktor budaya juga perlu diperhitungkan agar alat ukur dapat digunakan secara akurat dalam berbagai konteks.

Referensi

  • Bosson, J. K., Swann, W. B., & Pennebaker, J. W. (2000). Stalking the perfect measure of implicit self-esteem: The blind men and the elephant revisited?. Journal of Personality and Social Psychology, 79(4), 631-643.
  • Greenwald, A. G., & Farnham, S. D. (2000). Using the Implicit Association Test to measure self-esteem and self-concept. Journal of Personality and Social Psychology, 79(6), 1022-1038.
  • Heine, S. J., Lehman, D. R., Markus, H. R., & Kitayama, S. (1999). Is there a universal need for positive self-regard?. Psychological Review, 106(4), 766-794.
  • Harter, S. (1999). The construction of the self: A developmental perspective. Guilford Press.
  • Markus, H. R., & Kitayama, S. (1991). Culture and the self: Implications for cognition, emotion, and motivation. Psychological Review, 98(2), 224-253.
  • Marsh, H. W. (1993). The multidimensional structure of academic self-concept: Invariance over gender and age. American Educational Research Journal, 30(4), 841-860.
  • Marsh, H. W., & Shavelson, R. (1986). Self-concept: Its multifaceted, hierarchical structure. Educational Psychologist, 20(3), 107-123.
  • Marsh, H. W., Ellis, L. A., & Parada, R. H. (2010). Unidimensional or multidimensional self-concepts? Journal of Personality and Social Psychology, 98(4), 673-686.
  • Rosenberg, M. (1965). Society and the adolescent self-image. Princeton University Press.
  • Schmitt, D. P., & Allik, J. (2005). Simultaneous administration of the Rosenberg Self-Esteem Scale in 53 nations: Exploring the universal and culture-specific features of global self-esteem. Journal of Personality and Social Psychology, 89(4), 623-642.

Diskusi: Bagaimana implikasi dari kompleksitas ini terhadap pengembangan skala self-esteem di masa depan? Model mana yang menurut Anda lebih sesuai untuk mengukur self-esteem secara akurat dalam berbagai budaya?

Catatan: Artikel ini ditulis dengan AI sebagai materi diskusi/ studi kasus di kelas Psikometrika

Dilema Psikometris dalam Pengembangan Instrumen

“Kedewasaan seseorang terasah dengan kemampuannya mengelola dilema.”

Berikut ini adalah sejumlah trade offs yang biasa terjadi dalam dunia psikometrika ketika kita sedang mengembangkan suatu alat ukur. Tulisan ini merupakan hasil diskusi dalam grup Whatsapp Hommy Psikometrika dan diperkaya serta dirapikan dengan bantuan ChatGPT.

Dilema dalam Desain Skala Terkait Penggunaan Item Unfavorable

Item unfavorable adalah item yang bermuatan negatif atau tidak setuju dalam sebuah skala penilaian, khususnya dalam konteks mengukur sikap, opini, atau konstruk psikologis. Item ini mengandung pernyataan negatif atau bertentangan dengan sikap positif yang ingin diukur. Misalnya, “Saya tidak puas dengan pekerjaan saya” untuk mengukur kepuasan kerja (yang seharusnya diukur secara positif).

Manfaat Item Unfavorable

Pertama, item unfavorable bisa mengurangi masalah acquiescence bias, yaitu bias yang terjadi ketika responden cenderung menyetujui semua pernyataan yang diberikan (misalnya, selalu memilih “setuju” pada skala Likert), terlepas dari isi pernyataan itu. Bias ini bisa terjadi, misalnya, jika responden hanya merasa ingin menyelesaikan survei dengan cepat atau lebih suka memberi jawaban positif. Menambahkan item unfavorable dapat menjadi solusi untuk mengatasi acquiescence bias. Dengan menambahkan item-item yang bersifat negatif, maka responden tidak bisa hanya menyetujui semua item. Responden perlu mempertimbangkan dengan lebih cermat apakah mereka benar-benar setuju atau tidak dengan pernyataan yang diberikan.

Kedua, item unfavorable cocok untuk pengukuran konstruk bipolar. Konstruk ini memiliki dua sisi atau kutub yang berlawanan, misalnya: Kepuasan vs Ketidakpuasan, Kesehatan vs Penyakit, Optimisme vs Pesimisme. Penggunaan kedua jenis item favorable dan unvorable membantu menangkap seluruh spektrum sikap responden terhadap konstruk tersebut (misalnya dari puas hingga tidak puas). Kita pun dapat memperoleh data yang lebih lengkap dan seimbang mengenai sikap atau keadaan yang diukur. Item negatif (unfavorable) bisa membantu menangkap elemen yang berlawanan dari konstruk yang sedang diukur.

Risiko Item Unfavorable. Beberapa orang berpendapat bahwa penggunaan item unfavorable dapat mengarah pada kesalahan dalam interpretasi. Sebab, item-item dengan pernyataan negatif bisa menyebabkan responden merespons dengan cara yang tidak sesuai dengan tujuan pengukuran, atau malah mengukur hal lain selain konstruk yang dimaksud. Responden mungkin mengidentifikasi bahwa item tersebut dirancang untuk mengukur sikap negatif atau ketidakpuasan, sehingga responden lebih fokus pada sikap negatif itu sendiri daripada mengukur konstruk yang sebenarnya diinginkan. Ini bisa mengganggu validitas alat ukur. Contoh: Dalam pengukuran kepuasan kerja, jika butir yang digunakan cenderung negatif, hasil pengukuran bisa lebih menekankan ketidakpuasan atau sikap negatif, bukan kepuasan secara keseluruhan.

Dilema Penggunaan Jumlah Opsi Respon (Eror Pengukuran vs Efisiensi)

Salah satu dilema atau trade-off yang sering muncul saat mengembangkan alat ukur psikologis berkaitan dengan jumlah opsi respon terhadap pernyataan atau item (misalnya, skala Likert atau pilihan ganda). Dengan menggunakan lebih banyak opsi atau alternatif jawaban dalam sebuah item (misalnya, 7 opsi daripada 3), alat ukur cenderung lebih reliabel karena dapat menangkap perbedaan individu dengan lebih detail. Semakin banyak opsi, semakin kecil kemungkinan seseorang asal memilih jawaban (mengurangi error pengukuran). Namun, jika jumlah opsi terlalu banyak, responden mungkin merasa kesulitan atau kebingungan untuk membuat keputusan yang jelas. Hal ini mengurangi efisiensi karena dapat memperlambat proses pengisian atau bahkan memengaruhi validitas respons (misalnya, responden memilih secara asal karena terlalu banyak pilihan).

Contoh:

Skala dengan 3 opsi jawaban: “Tidak setuju,” “Netral,” “Setuju”. Skala ini cepat dan mudah dipahami, tetapi kurang detail dalam menangkap perbedaan sikap.

Skala dengan 7 opsi jawaban: “Sangat tidak setuju,” “Tidak setuju,” “Agak tidak setuju,” “Netral,” “Agak setuju,” “Setuju,” “Sangat setuju.” Skala ini lebih detail, reliabel, tetapi bisa membuat responden berpikir terlalu lama atau bingung.

Solusi:

Menentukan jumlah opsi yang sesuai tergantung pada konteks, target populasi, dan tujuan pengukuran. Kita tidak bisa menggunakan pendekatan yang sama untuk semua situasi. Jumlah opsi yang ideal harus disesuaikan dengan:

Pertama, konteks. Konteks menyangkut jenis alat ukur dan kompleksitas konstruk yang hendak diukur. Apakah alat ukur kita hendak digunakan untuk penelitian ilmiah, penilaian pendidikan, atau asesmen klinis? Dalam penelitian akademik, biasanya lebih disukai skala dengan lebih banyak opsi untuk mendapatkan data yang lebih detail. Sementara dalam konteks asesmen cepat (misalnya survei populasi besar), lebih sedikit opsi sering dipilih demi efisiensi. Jika pernyataan yang diukur rumit atau abstrak (misalnya tentang nilai-nilai hidup), lebih banyak opsi mungkin diperlukan untuk menangkap nuansa. Sebaliknya, untuk pertanyaan sederhana, opsi yang lebih sedikit sering cukup. Dalam banyak kasus, 5 atau 7 opsi adalah kompromi yang baik, karena cukup reliabel sekaligus tidak terlalu membebani responden.

Kedua, target populasi. Target populasi menyangkut kemampuan responden dan kebiasaan budaya. Jika targetnya adalah anak-anak, orang tua, atau individu dengan keterbatasan kognitif, terlalu banyak opsi dapat membingungkan mereka. Misalnya, menggunakan 3-5 opsi lebih sesuai untuk kelompok ini. Untuk orang dewasa dengan pendidikan tinggi, 5-7 opsi lebih sering digunakan karena mereka lebih mampu membuat keputusan yang lebih spesifik. Dalam beberapa budaya, orang mungkin lebih cenderung memilih jawaban ekstrem (“Sangat Setuju” atau “Sangat Tidak Setuju”), sementara di budaya lain, mereka mungkin lebih sering memilih jawaban tengah. Pemahaman budaya ini bisa memengaruhi jumlah dan jenis opsi yang digunakan.

Ketiga, tujuan pengukuran. Tujuan ini berkenaan dengan kebutuhan data detail dan efisiensi serta kecepatan. Jika tujuan pengukuran membutuhkan data yang sangat spesifik atau presisi tinggi (misalnya, dalam pengukuran sikap atau preferensi yang sangat kompleks), maka lebih banyak opsi (5-7) diperlukan untuk menangkap variasi individu secara lebih baik. Jika alat ukur hanya bertujuan untuk mendapatkan gambaran umum dalam waktu singkat, lebih sedikit opsi (3-5) mungkin lebih tepat agar proses pengisian lebih cepat tanpa membebani responden.

Dilema Skala Likert sebagai Data Ordinal vs Data Interval

Dilema ini mencerminkan perbedaan pendekatan dalam merepresentasikan data Likert, yaitu antara realisme ordinal vs fleksibilitas interval. Kita harus memilih pendekatan berdasarkan konteks penelitian, tujuan analisis, dan sifat data yang digunakan.

Pertama, sebagai data ordinal. Skala Likert (misalnya, “Sangat Tidak Setuju” hingga “Sangat Setuju”) sering dianggap sebagai data ordinal, karena peringkatnya menunjukkan urutan (1 < 2 < 3 < 4 < 5), tetapi jarak antar nilai mungkin tidak konsisten. Kelebihannya, penafsirannya lebih realistis karena mengakui bahwa skala Likert adalah urutan peringkat, bukan nilai mutlak. Selain itu, ini juga cocok untuk analisis nonparametrik, seperti Uji Kruskal-Wallis atau Spearman. Namun, kekurangannya, pada data ordinal, kita tidak dapat menggunakan analisis parametrik (regresi linier, ANOVA) secara langsung karena asumsi interval tidak terpenuhi. Selain itu, data ordinal biasanya dianggap kurang “kompleks” dalam penelitian.

Kedua, sebagai data interval. Banyak peneliti memperlakukan skala Likert sebagai data interval, dengan asumsi bahwa jarak antar kategori adalah sama. Misalnya, perbedaan antara “Setuju” dan “Netral” dianggap setara dengan perbedaan antara “Netral” dan “Tidak Setuju.” Kelebihannya, kita dapat menggunakan analisis parametrik, seperti ANOVA, regresi, atau analisis faktor, yang lebih kaya informasi. Dan, penggunaan data internal lebih mempermudah interpretasi hasil dalam penelitian kuantitatif. Kekurangannya, terdapat risiko menghasilkan hasil yang bias jika asumsi interval tidak valid.

Dilema dalam Menangani Outliers

Outlier adalah data yang secara signifikan berbeda dari mayoritas data lainnya. Misalnya, jika rata-rata skor tes adalah 70 dengan mayoritas peserta berada di kisaran 60–80, tetapi ada satu peserta dengan skor 5 atau 100, maka skor tersebut disebut outlier.

Pertama, mengeliminasi outliers. Outlier sering kali dianggap “gangguan” karena dapat memengaruhi rata-rata, standar deviasi, atau hasil statistik lainnya. Dengan menghapusnya, analisis menjadi lebih stabil dan representatif untuk mayoritas responden. Selain itu, jika outlier disebabkan oleh kesalahan teknis, seperti salah input data atau error pengukuran, menghapusnya dapat meningkatkan akurasi hasil. Namun, jika outlier mencerminkan realitas yang sebenarnya (misalnya, individu dengan skor ekstrem karena kondisi unik mereka), menghapusnya berarti kita mengabaikan fakta penting yang bisa berkontribusi pada pemahaman fenomena. Dalam beberapa kasus, outlier justru menunjukkan pola baru atau anomali yang relevan untuk penelitian.

Kedua, mempertahankan outliers. Membiarkan outlier dalam data berarti kita menerima data apa adanya. Outlier sering kali mencerminkan variabilitas alami dalam populasi. Misalnya, dalam tes kecerdasan, outlier mungkin adalah individu yang sangat berbakat atau memiliki kesulitan belajar. Outlier dapat membantu peneliti menemukan sesuatu yang tidak terduga, seperti fenomena langka atau kelompok khusus dalam data. Namun, risikonya, outlier yang tidak relevan atau disebabkan oleh kesalahan teknis dapat mengganggu analisis dan menghasilkan hasil yang menyesatkan. Misalnya, dalam regresi linear, outlier dapat menggeser garis regresi sehingga hasilnya tidak lagi mewakili mayoritas data.

Solusi:

Kapan sebaiknya mengeliminasi outliers? Jika outlier disebabkan oleh kesalahan teknis, seperti salah input data atau malfungsi alat, dan jika penelitian berfokus pada mayoritas populasi, dan outlier dianggap tidak relevan.

Kapan sebaiknya mempertahankan outliers? Jika outlier mencerminkan kondisi sebenarnya atau variasi alami dalam populasi dan jika penelitian bertujuan untuk mengeksplorasi pola atau fenomena baru, termasuk kasus-kasus ekstrem.

Atau, lakukan kompromi. Lakukan transformasi data, menggunakan metode seperti logaritma atau winsorizing untuk mengurangi dampak outlier tanpa menghilangkannya. Atau, lakukan analisis terpisah, yakni analisis data dengan dan tanpa outlier untuk memahami sejauh mana outlier memengaruhi hasil.

Dilema dalam Pengolahan Data Statistik (Pakai Uji Asumsi vs Tanpa Uji Asumsi)

Apakah kita harus memastikan data memenuhi asumsi tertentu sebelum melakukan analisis statistik, atau langsung menggunakan metode yang lebih fleksibel yang tidak memerlukan asumsi ketat?

Pertama, pakai uji asumsi. Beberapa analisis statistik, seperti ANOVA, regresi linier, atau uji-t, memiliki asumsi dasar yang harus dipenuhi, seperti: data terdistribusi normal, varians yang homogen, dan interdependensi antar kelompok. Jika asumsi terpenuhi, analisis yang dilakukan lebih valid dan akurat. Penggunaan uji asumsi juga lebih sesuai dengan metodologi standar dalam penelitian. Namun, menguji asumsi membutuhkan waktu dan upaya tambahan. Jika asumsi tidak terpenuhi, bisa membingungkan apakah sebaiknya transformasi data dilakukan atau beralih ke metode lain.

Kedua, tanpa uji asumsi. Beberapa pendekatan statistik nonparametrik, seperti Uji Mann-Whitney atau Uji Kruskal-Wallis, tidak memerlukan asumsi yang ketat tentang distribusi data. Statistik non parametrik cocok untuk data yang tidak memenuhi asumsi dasar analisis parametrik, serta lebih fleksibel dan sederhana. Namun, hasil analisis mungkin kurang sensitif dibandingkan analisis parametrik. Tidak semua nonparametrik memberikan informasi mendalam yang sama dengan metode parametrik.

Dalam analisis alat ukur, uji asumsi perlu untuk dilakukan terlebih dahulu sebelum menjalankan prosedur-prosedur seperti analisis reliabilitas, EFA, CFA, dan analisis dengan IRT.

Analisis reliabilitas biasanya diukur menggunakan indeks seperti Cronbach’s alpha, split-half reliability, atau reliabilitas test-retest. Asumsi yang diperlukan: 1) Unidimensionalitas. Skor item harus mencerminkan satu konstruk atau dimensi yang sama. Jika ada lebih dari satu dimensi yang mendasari item, maka Cronbach’s alpha bisa memberikan hasil yang tidak akurat; 2) Homogenitas varians. Reliabilitas internal mengasumsikan bahwa semua item memiliki varian yang serupa dan saling berkorelasi cukup kuat; dan 3) Distribusi data. Meski tidak terlalu ketat, outlier atau data yang terlalu jauh dari distribusi normal dapat memengaruhi reliabilitas.

Solusi jika asumsi tidak terpenuhi: 1) Gunakan analisis tambahan, seperti EFA, untuk memastikan unidimensionalitas, dan 2) Pertimbangkan metode alternatif seperti omega reliability jika Cronbach’s alpha tidak relevan.

Exploratory Factor Analysis (EFA) digunakan untuk menemukan struktur laten dalam data dan mengidentifikasi faktor yang mendasari item. Asumsi yang dibutuhkan: 1) Kecukupan sampel. Jumlah sampel harus cukup besar untuk menghasilkan matriks korelasi yang stabil. Panduan umum: 5–10 responden per item; 2) Korelasi antar aitem. Item harus berkorelasi satu sama lain secara signifikan untuk membentuk faktor yang bermakna. Uji yang digunakan: Bartlett’s Test of Sphericity (mengukur apakah korelasi signifikan) dan Kaiser-Meyer-Olkin (KMO) (mengukur kecukupan sampel); 3) Linearitas. Hubungan antar item harus bersifat linear, karena EFA mengasumsikan matriks korelasi linear; dan 4) Multivariat normal. Tidak sepenuhnya wajib, tetapi data yang mendekati distribusi normal menghasilkan hasil yang lebih stabil.

Asumsi seperti kecukupan sampel wajib dicek lebih awal untuk memastikan EFA dapat dijalankan dengan hasil yang valid.

Solusi jika asumsi tidak terpenuhi: 1) Jika korelasi rendah, pertimbangkan revisi item, dan 2) Jika sampel kecil, gunakan metode seperti parallel analysis atau simulasi bootstrap.

Confirmatory Factor Analysis (CFA) digunakan untuk mengkonfirmasi struktur faktor yang sudah ditentukan sebelumnya. Asumsi yang diperlukan: 1) Unidimensionalitas dalam faktor. Setiap faktor hanya mengukur satu konstruk; 2) Multivariat normal. Distribusi data yang mendekati normalitas penting untuk estimasi parameter dengan Maximum Likelihood (ML); 3) Independensi sampel. Responden harus memberikan jawaban yang independen; dan 4) Model Fit. Asumsi model fit seperti Chi-Square Test, CFI (Comparative Fit Index), dan RMSEA (Root Mean Square Error of Approximation) harus dipenuhi untuk memastikan model cocok dengan data.

Solusi jika asumsi tidak terpenuhi: 1) Gunakan estimasi alternatif seperti Robust ML atau Weighted Least Squares (WLS) untuk data non-normal, dan 2) Pertimbangkan revisi model dengan menambahkan atau menghapus item.

Item Response Theory (IRT) digunakan untuk mengevaluasi kualitas item berdasarkan hubungan antara kemampuan responden dan probabilitas menjawab item dengan benar. Asumsi yang diperlukan: 1) Unidimensionalitas. Setiap tes atau skala harus mengukur satu kemampuan utama (dimensi); 2) Local Independence. Jawaban terhadap suatu item tidak boleh memengaruhi jawaban terhadap item lainnya setelah dimensi utama diperhitungkan; 3) Model Fit. Data harus sesuai dengan model IRT yang dipilih (1PL, 2PL, atau 3PL). Pengujian model fit biasanya dilakukan untuk memastikan asumsi ini terpenuhi; dan 4) Sampel yang memadai. IRT membutuhkan jumlah sampel yang cukup besar agar estimasi parameter stabil.

Solusi jika asumsi tidak terpenuhi: 1) Gunakan analisis seperti Principal Component Analysis (PCA) atau EFA untuk memastikan unidimensionalitas, 2) Jika local independence dilanggar, evaluasi apakah item terlalu serupa atau terkait secara tematik, dan 3) Pilih model IRT yang lebih sesuai jika model awal tidak cocok (misalnya, beralih dari 3PL ke 2PL).

Idealnya, asumsi memang harus dicek terlebih dahulu sebelum menjalankan analisis, karena asumsi yang tidak terpenuhi dapat memengaruhi validitas hasil dan interpretasi. Namun, apakah asumsi harus diuji lebih awal tergantung pada jenis analisis. Asumsi-asumsi reliabilitas sebaiknya dicek terlebih dahulu, terutama jika alat ukur baru atau belum divalidasi. Jika alat ukur sudah divalidasi di penelitian sebelumnya, asumsi ini bisa lebih fleksibel (boleh tidak dilakukan). Untuk analisis seperti IRT atau CFA, asumsi penting harus diperiksa sebelum analisis, karena asumsi yang dilanggar dapat menghasilkan kesimpulan yang keliru. Dalam analisis yang lebih eksploratif, seperti EFA, asumsi dapat diperiksa baik sebelum maupun selama analisis.

Dilema antara Reliabilitas dan Validitas

Reliabilitas mengacu pada konsistensi alat ukur. Artinya, jika alat ukur digunakan berulang kali dalam kondisi yang sama, hasilnya harus serupa. Alat ukur yang reliabel memiliki tingkat error yang rendah. Validitas mengacu pada kemampuan alat ukur untuk benar-benar mengukur apa yang dimaksudkan untuk diukur. Alat ukur yang valid memberikan hasil yang akurat dan relevan dengan tujuan pengukuran.

Sering kali ada trade-off antara meningkatkan reliabilitas dan meningkatkan validitas. Dalam beberapa kasus, meningkatkan salah satu dapat mengorbankan yang lain.

Contoh: Meningkatkan reliabilitas, melemahkan validitas

Jika kita membuat alat ukur dengan item yang sangat seragam (misalnya, pertanyaan yang hampir sama diulang-ulang), reliabilitas mungkin tinggi karena jawabannya konsisten. Namun, validitas bisa menurun karena alat itu mungkin hanya mengukur aspek yang sempit dari suatu konstruk.

Contoh: Meningkatkan validitas, melemahkan reliabilitas

Untuk meningkatkan validitas, alat ukur sering kali perlu mencakup berbagai aspek dari sebuah konstruk. Namun, ini dapat mengurangi reliabilitas karena jawaban responden mungkin lebih bervariasi, dan item-item yang berbeda mungkin tidak selalu konsisten satu sama lain. Misalnya, sebuah kuesioner yang mengukur kepribadian dengan berbagai dimensi (ekstroversi, neurotisisme, dll.) mungkin lebih valid, tetapi jawabannya bisa kurang konsisten antar dimensi.

Solusi:

Pertama, keseimbangan. Dalam praktiknya, pengembang alat ukur berusaha menemukan keseimbangan antara reliabilitas dan validitas. Alat ukur yang ideal adalah yang cukup reliabel untuk memberikan hasil yang konsisten tetapi juga cukup valid untuk mengukur konstruk yang dimaksud.

Kedua, penggunaan yang tepat. Alat ukur dengan reliabilitas tinggi tetapi validitas rendah mungkin cocok untuk tujuan tertentu (seperti screening awal), tetapi tidak untuk diagnosis mendalam.

Dilema Penggunaan Model Rasch atau Item Response Theory (IRT)

Dilema ini dapat terjadi saat kita mengembangkan atau menganalisis alat ukur. Kedua pendekatan, Model Rasch atau IRT, digunakan untuk mengevaluasi kualitas item (pertanyaan) dan kemampuan responden, tetapi memiliki perbedaan signifikan dalam kompleksitas dan hasil informasi.

Model Rasch adalah salah satu jenis model IRT yang paling sederhana dan ketat. Fokus utamanya adalah pada kesesuaian data dengan model. Jika data tidak sesuai, maka Model Rasch menyarankan revisi pada alat ukur atau data tersebut. Model ini hanya mempertimbangkan satu parameter, yaitu tingkat kesulitan item. Semua responden dianggap memiliki probabilitas yang sama untuk menjawab item dengan benar, tergantung pada kemampuan mereka dan tingkat kesulitan item tersebut.

Model Rasch memiliki beberapa keunggulan: 1) Sederhana dan mudah dipahami karena hanya mengandalkan satu parameter (kesulitan item), sehingga analisisnya lebih mudah dilakukan, 2) Data yang sesuai dengan Rasch biasanya dianggap berkualitas tinggi, dan 3) Rasch mengukur kemampuan individu secara independen dari alat ukur dan sebaliknya. Namun, kelemahannya: 1) Karena hanya memperhitungkan satu parameter (kesulitan item), Model Rasch mengabaikan faktor lain, seperti diskriminasi item atau kemungkinan tebak-tebakan. Dengan demikian, model ini tidak cocok digunakan untuk menganalisis alat ukur yang kompleks atau memerlukan analisis lebih kaya.

IRT adalah pendekatan yang lebih luas, dengan model-model yang dapat menggunakan lebih banyak parameter (1PL, 2PL, dan 3PL). IRT memberikan informasi yang lebih kaya tentang karakteristik item, seperti kemampuan diskriminasi dan efek tebak-tebakan. IRT cocok untuk berbagai jenis alat ukur dan populasi, serta dapat digunakan dalam pengujian adaptif komputer (CAT), di mana tingkat kesulitan item dapat disesuaikan dengan kemampuan responden. Kelemahannya, analisis dengan IRT memerlukan perhitungan matematis yang lebih rumit dan data yang lebih banyak untuk analisis. Untuk melakukan ini, dibutuhkan software khusus dan pengetahuan yang lebih mendalam untuk menginterpretasikan hasil.

Solusi:

Pertama, pertimbangan tujuan pengukuran. Jika alat ukur dirancang untuk keperluan sederhana, seperti survei singkat atau tes kecil, Model Rasch mungkin cukup. Sementara, untuk alat ukur yang lebih kompleks, seperti tes kemampuan besar (misalnya, TOEFL), IRT lebih cocok. Kedua, pertimbangan sumber daya. Jika waktu, keahlian, atau perangkat analisis terbatas, Rasch adalah pilihan praktis. Jika sumber daya tersedia dan analisis yang kaya dibutuhkan, IRT menjadi pilihan unggul.fo