“Kedewasaan seseorang terasah dengan kemampuannya mengelola dilema.”
Berikut ini adalah sejumlah trade offs yang biasa terjadi dalam dunia psikometrika ketika kita sedang mengembangkan suatu alat ukur. Tulisan ini merupakan hasil diskusi dalam grup Whatsapp Hommy Psikometrika dan diperkaya serta dirapikan dengan bantuan ChatGPT.
Dilema dalam Desain Skala Terkait Penggunaan Item Unfavorable
Item unfavorable adalah item yang bermuatan negatif atau tidak setuju dalam sebuah skala penilaian, khususnya dalam konteks mengukur sikap, opini, atau konstruk psikologis. Item ini mengandung pernyataan negatif atau bertentangan dengan sikap positif yang ingin diukur. Misalnya, “Saya tidak puas dengan pekerjaan saya” untuk mengukur kepuasan kerja (yang seharusnya diukur secara positif).
Manfaat Item Unfavorable
Pertama, item unfavorable bisa mengurangi masalah acquiescence bias, yaitu bias yang terjadi ketika responden cenderung menyetujui semua pernyataan yang diberikan (misalnya, selalu memilih “setuju” pada skala Likert), terlepas dari isi pernyataan itu. Bias ini bisa terjadi, misalnya, jika responden hanya merasa ingin menyelesaikan survei dengan cepat atau lebih suka memberi jawaban positif. Menambahkan item unfavorable dapat menjadi solusi untuk mengatasi acquiescence bias. Dengan menambahkan item-item yang bersifat negatif, maka responden tidak bisa hanya menyetujui semua item. Responden perlu mempertimbangkan dengan lebih cermat apakah mereka benar-benar setuju atau tidak dengan pernyataan yang diberikan.
Kedua, item unfavorable cocok untuk pengukuran konstruk bipolar. Konstruk ini memiliki dua sisi atau kutub yang berlawanan, misalnya: Kepuasan vs Ketidakpuasan, Kesehatan vs Penyakit, Optimisme vs Pesimisme. Penggunaan kedua jenis item favorable dan unvorable membantu menangkap seluruh spektrum sikap responden terhadap konstruk tersebut (misalnya dari puas hingga tidak puas). Kita pun dapat memperoleh data yang lebih lengkap dan seimbang mengenai sikap atau keadaan yang diukur. Item negatif (unfavorable) bisa membantu menangkap elemen yang berlawanan dari konstruk yang sedang diukur.
Risiko Item Unfavorable. Beberapa orang berpendapat bahwa penggunaan item unfavorable dapat mengarah pada kesalahan dalam interpretasi. Sebab, item-item dengan pernyataan negatif bisa menyebabkan responden merespons dengan cara yang tidak sesuai dengan tujuan pengukuran, atau malah mengukur hal lain selain konstruk yang dimaksud. Responden mungkin mengidentifikasi bahwa item tersebut dirancang untuk mengukur sikap negatif atau ketidakpuasan, sehingga responden lebih fokus pada sikap negatif itu sendiri daripada mengukur konstruk yang sebenarnya diinginkan. Ini bisa mengganggu validitas alat ukur. Contoh: Dalam pengukuran kepuasan kerja, jika butir yang digunakan cenderung negatif, hasil pengukuran bisa lebih menekankan ketidakpuasan atau sikap negatif, bukan kepuasan secara keseluruhan.
Dilema Penggunaan Jumlah Opsi Respon (Eror Pengukuran vs Efisiensi)
Salah satu dilema atau trade-off yang sering muncul saat mengembangkan alat ukur psikologis berkaitan dengan jumlah opsi respon terhadap pernyataan atau item (misalnya, skala Likert atau pilihan ganda). Dengan menggunakan lebih banyak opsi atau alternatif jawaban dalam sebuah item (misalnya, 7 opsi daripada 3), alat ukur cenderung lebih reliabel karena dapat menangkap perbedaan individu dengan lebih detail. Semakin banyak opsi, semakin kecil kemungkinan seseorang asal memilih jawaban (mengurangi error pengukuran). Namun, jika jumlah opsi terlalu banyak, responden mungkin merasa kesulitan atau kebingungan untuk membuat keputusan yang jelas. Hal ini mengurangi efisiensi karena dapat memperlambat proses pengisian atau bahkan memengaruhi validitas respons (misalnya, responden memilih secara asal karena terlalu banyak pilihan).
Contoh:
Skala dengan 3 opsi jawaban: “Tidak setuju,” “Netral,” “Setuju”. Skala ini cepat dan mudah dipahami, tetapi kurang detail dalam menangkap perbedaan sikap.
Skala dengan 7 opsi jawaban: “Sangat tidak setuju,” “Tidak setuju,” “Agak tidak setuju,” “Netral,” “Agak setuju,” “Setuju,” “Sangat setuju.” Skala ini lebih detail, reliabel, tetapi bisa membuat responden berpikir terlalu lama atau bingung.
Solusi:
Menentukan jumlah opsi yang sesuai tergantung pada konteks, target populasi, dan tujuan pengukuran. Kita tidak bisa menggunakan pendekatan yang sama untuk semua situasi. Jumlah opsi yang ideal harus disesuaikan dengan:
Pertama, konteks. Konteks menyangkut jenis alat ukur dan kompleksitas konstruk yang hendak diukur. Apakah alat ukur kita hendak digunakan untuk penelitian ilmiah, penilaian pendidikan, atau asesmen klinis? Dalam penelitian akademik, biasanya lebih disukai skala dengan lebih banyak opsi untuk mendapatkan data yang lebih detail. Sementara dalam konteks asesmen cepat (misalnya survei populasi besar), lebih sedikit opsi sering dipilih demi efisiensi. Jika pernyataan yang diukur rumit atau abstrak (misalnya tentang nilai-nilai hidup), lebih banyak opsi mungkin diperlukan untuk menangkap nuansa. Sebaliknya, untuk pertanyaan sederhana, opsi yang lebih sedikit sering cukup. Dalam banyak kasus, 5 atau 7 opsi adalah kompromi yang baik, karena cukup reliabel sekaligus tidak terlalu membebani responden.
Kedua, target populasi. Target populasi menyangkut kemampuan responden dan kebiasaan budaya. Jika targetnya adalah anak-anak, orang tua, atau individu dengan keterbatasan kognitif, terlalu banyak opsi dapat membingungkan mereka. Misalnya, menggunakan 3-5 opsi lebih sesuai untuk kelompok ini. Untuk orang dewasa dengan pendidikan tinggi, 5-7 opsi lebih sering digunakan karena mereka lebih mampu membuat keputusan yang lebih spesifik. Dalam beberapa budaya, orang mungkin lebih cenderung memilih jawaban ekstrem (“Sangat Setuju” atau “Sangat Tidak Setuju”), sementara di budaya lain, mereka mungkin lebih sering memilih jawaban tengah. Pemahaman budaya ini bisa memengaruhi jumlah dan jenis opsi yang digunakan.
Ketiga, tujuan pengukuran. Tujuan ini berkenaan dengan kebutuhan data detail dan efisiensi serta kecepatan. Jika tujuan pengukuran membutuhkan data yang sangat spesifik atau presisi tinggi (misalnya, dalam pengukuran sikap atau preferensi yang sangat kompleks), maka lebih banyak opsi (5-7) diperlukan untuk menangkap variasi individu secara lebih baik. Jika alat ukur hanya bertujuan untuk mendapatkan gambaran umum dalam waktu singkat, lebih sedikit opsi (3-5) mungkin lebih tepat agar proses pengisian lebih cepat tanpa membebani responden.
Dilema Skala Likert sebagai Data Ordinal vs Data Interval
Dilema ini mencerminkan perbedaan pendekatan dalam merepresentasikan data Likert, yaitu antara realisme ordinal vs fleksibilitas interval. Kita harus memilih pendekatan berdasarkan konteks penelitian, tujuan analisis, dan sifat data yang digunakan.
Pertama, sebagai data ordinal. Skala Likert (misalnya, “Sangat Tidak Setuju” hingga “Sangat Setuju”) sering dianggap sebagai data ordinal, karena peringkatnya menunjukkan urutan (1 < 2 < 3 < 4 < 5), tetapi jarak antar nilai mungkin tidak konsisten. Kelebihannya, penafsirannya lebih realistis karena mengakui bahwa skala Likert adalah urutan peringkat, bukan nilai mutlak. Selain itu, ini juga cocok untuk analisis nonparametrik, seperti Uji Kruskal-Wallis atau Spearman. Namun, kekurangannya, pada data ordinal, kita tidak dapat menggunakan analisis parametrik (regresi linier, ANOVA) secara langsung karena asumsi interval tidak terpenuhi. Selain itu, data ordinal biasanya dianggap kurang “kompleks” dalam penelitian.
Kedua, sebagai data interval. Banyak peneliti memperlakukan skala Likert sebagai data interval, dengan asumsi bahwa jarak antar kategori adalah sama. Misalnya, perbedaan antara “Setuju” dan “Netral” dianggap setara dengan perbedaan antara “Netral” dan “Tidak Setuju.” Kelebihannya, kita dapat menggunakan analisis parametrik, seperti ANOVA, regresi, atau analisis faktor, yang lebih kaya informasi. Dan, penggunaan data internal lebih mempermudah interpretasi hasil dalam penelitian kuantitatif. Kekurangannya, terdapat risiko menghasilkan hasil yang bias jika asumsi interval tidak valid.
Dilema dalam Menangani Outliers
Outlier adalah data yang secara signifikan berbeda dari mayoritas data lainnya. Misalnya, jika rata-rata skor tes adalah 70 dengan mayoritas peserta berada di kisaran 60–80, tetapi ada satu peserta dengan skor 5 atau 100, maka skor tersebut disebut outlier.
Pertama, mengeliminasi outliers. Outlier sering kali dianggap “gangguan” karena dapat memengaruhi rata-rata, standar deviasi, atau hasil statistik lainnya. Dengan menghapusnya, analisis menjadi lebih stabil dan representatif untuk mayoritas responden. Selain itu, jika outlier disebabkan oleh kesalahan teknis, seperti salah input data atau error pengukuran, menghapusnya dapat meningkatkan akurasi hasil. Namun, jika outlier mencerminkan realitas yang sebenarnya (misalnya, individu dengan skor ekstrem karena kondisi unik mereka), menghapusnya berarti kita mengabaikan fakta penting yang bisa berkontribusi pada pemahaman fenomena. Dalam beberapa kasus, outlier justru menunjukkan pola baru atau anomali yang relevan untuk penelitian.
Kedua, mempertahankan outliers. Membiarkan outlier dalam data berarti kita menerima data apa adanya. Outlier sering kali mencerminkan variabilitas alami dalam populasi. Misalnya, dalam tes kecerdasan, outlier mungkin adalah individu yang sangat berbakat atau memiliki kesulitan belajar. Outlier dapat membantu peneliti menemukan sesuatu yang tidak terduga, seperti fenomena langka atau kelompok khusus dalam data. Namun, risikonya, outlier yang tidak relevan atau disebabkan oleh kesalahan teknis dapat mengganggu analisis dan menghasilkan hasil yang menyesatkan. Misalnya, dalam regresi linear, outlier dapat menggeser garis regresi sehingga hasilnya tidak lagi mewakili mayoritas data.
Solusi:
Kapan sebaiknya mengeliminasi outliers? Jika outlier disebabkan oleh kesalahan teknis, seperti salah input data atau malfungsi alat, dan jika penelitian berfokus pada mayoritas populasi, dan outlier dianggap tidak relevan.
Kapan sebaiknya mempertahankan outliers? Jika outlier mencerminkan kondisi sebenarnya atau variasi alami dalam populasi dan jika penelitian bertujuan untuk mengeksplorasi pola atau fenomena baru, termasuk kasus-kasus ekstrem.
Atau, lakukan kompromi. Lakukan transformasi data, menggunakan metode seperti logaritma atau winsorizing untuk mengurangi dampak outlier tanpa menghilangkannya. Atau, lakukan analisis terpisah, yakni analisis data dengan dan tanpa outlier untuk memahami sejauh mana outlier memengaruhi hasil.
Dilema dalam Pengolahan Data Statistik (Pakai Uji Asumsi vs Tanpa Uji Asumsi)
Apakah kita harus memastikan data memenuhi asumsi tertentu sebelum melakukan analisis statistik, atau langsung menggunakan metode yang lebih fleksibel yang tidak memerlukan asumsi ketat?
Pertama, pakai uji asumsi. Beberapa analisis statistik, seperti ANOVA, regresi linier, atau uji-t, memiliki asumsi dasar yang harus dipenuhi, seperti: data terdistribusi normal, varians yang homogen, dan interdependensi antar kelompok. Jika asumsi terpenuhi, analisis yang dilakukan lebih valid dan akurat. Penggunaan uji asumsi juga lebih sesuai dengan metodologi standar dalam penelitian. Namun, menguji asumsi membutuhkan waktu dan upaya tambahan. Jika asumsi tidak terpenuhi, bisa membingungkan apakah sebaiknya transformasi data dilakukan atau beralih ke metode lain.
Kedua, tanpa uji asumsi. Beberapa pendekatan statistik nonparametrik, seperti Uji Mann-Whitney atau Uji Kruskal-Wallis, tidak memerlukan asumsi yang ketat tentang distribusi data. Statistik non parametrik cocok untuk data yang tidak memenuhi asumsi dasar analisis parametrik, serta lebih fleksibel dan sederhana. Namun, hasil analisis mungkin kurang sensitif dibandingkan analisis parametrik. Tidak semua nonparametrik memberikan informasi mendalam yang sama dengan metode parametrik.
Dalam analisis alat ukur, uji asumsi perlu untuk dilakukan terlebih dahulu sebelum menjalankan prosedur-prosedur seperti analisis reliabilitas, EFA, CFA, dan analisis dengan IRT.
Analisis reliabilitas biasanya diukur menggunakan indeks seperti Cronbach’s alpha, split-half reliability, atau reliabilitas test-retest. Asumsi yang diperlukan: 1) Unidimensionalitas. Skor item harus mencerminkan satu konstruk atau dimensi yang sama. Jika ada lebih dari satu dimensi yang mendasari item, maka Cronbach’s alpha bisa memberikan hasil yang tidak akurat; 2) Homogenitas varians. Reliabilitas internal mengasumsikan bahwa semua item memiliki varian yang serupa dan saling berkorelasi cukup kuat; dan 3) Distribusi data. Meski tidak terlalu ketat, outlier atau data yang terlalu jauh dari distribusi normal dapat memengaruhi reliabilitas.
Solusi jika asumsi tidak terpenuhi: 1) Gunakan analisis tambahan, seperti EFA, untuk memastikan unidimensionalitas, dan 2) Pertimbangkan metode alternatif seperti omega reliability jika Cronbach’s alpha tidak relevan.
Exploratory Factor Analysis (EFA) digunakan untuk menemukan struktur laten dalam data dan mengidentifikasi faktor yang mendasari item. Asumsi yang dibutuhkan: 1) Kecukupan sampel. Jumlah sampel harus cukup besar untuk menghasilkan matriks korelasi yang stabil. Panduan umum: 5–10 responden per item; 2) Korelasi antar aitem. Item harus berkorelasi satu sama lain secara signifikan untuk membentuk faktor yang bermakna. Uji yang digunakan: Bartlett’s Test of Sphericity (mengukur apakah korelasi signifikan) dan Kaiser-Meyer-Olkin (KMO) (mengukur kecukupan sampel); 3) Linearitas. Hubungan antar item harus bersifat linear, karena EFA mengasumsikan matriks korelasi linear; dan 4) Multivariat normal. Tidak sepenuhnya wajib, tetapi data yang mendekati distribusi normal menghasilkan hasil yang lebih stabil.
Asumsi seperti kecukupan sampel wajib dicek lebih awal untuk memastikan EFA dapat dijalankan dengan hasil yang valid.
Solusi jika asumsi tidak terpenuhi: 1) Jika korelasi rendah, pertimbangkan revisi item, dan 2) Jika sampel kecil, gunakan metode seperti parallel analysis atau simulasi bootstrap.
Confirmatory Factor Analysis (CFA) digunakan untuk mengkonfirmasi struktur faktor yang sudah ditentukan sebelumnya. Asumsi yang diperlukan: 1) Unidimensionalitas dalam faktor. Setiap faktor hanya mengukur satu konstruk; 2) Multivariat normal. Distribusi data yang mendekati normalitas penting untuk estimasi parameter dengan Maximum Likelihood (ML); 3) Independensi sampel. Responden harus memberikan jawaban yang independen; dan 4) Model Fit. Asumsi model fit seperti Chi-Square Test, CFI (Comparative Fit Index), dan RMSEA (Root Mean Square Error of Approximation) harus dipenuhi untuk memastikan model cocok dengan data.
Solusi jika asumsi tidak terpenuhi: 1) Gunakan estimasi alternatif seperti Robust ML atau Weighted Least Squares (WLS) untuk data non-normal, dan 2) Pertimbangkan revisi model dengan menambahkan atau menghapus item.
Item Response Theory (IRT) digunakan untuk mengevaluasi kualitas item berdasarkan hubungan antara kemampuan responden dan probabilitas menjawab item dengan benar. Asumsi yang diperlukan: 1) Unidimensionalitas. Setiap tes atau skala harus mengukur satu kemampuan utama (dimensi); 2) Local Independence. Jawaban terhadap suatu item tidak boleh memengaruhi jawaban terhadap item lainnya setelah dimensi utama diperhitungkan; 3) Model Fit. Data harus sesuai dengan model IRT yang dipilih (1PL, 2PL, atau 3PL). Pengujian model fit biasanya dilakukan untuk memastikan asumsi ini terpenuhi; dan 4) Sampel yang memadai. IRT membutuhkan jumlah sampel yang cukup besar agar estimasi parameter stabil.
Solusi jika asumsi tidak terpenuhi: 1) Gunakan analisis seperti Principal Component Analysis (PCA) atau EFA untuk memastikan unidimensionalitas, 2) Jika local independence dilanggar, evaluasi apakah item terlalu serupa atau terkait secara tematik, dan 3) Pilih model IRT yang lebih sesuai jika model awal tidak cocok (misalnya, beralih dari 3PL ke 2PL).
Idealnya, asumsi memang harus dicek terlebih dahulu sebelum menjalankan analisis, karena asumsi yang tidak terpenuhi dapat memengaruhi validitas hasil dan interpretasi. Namun, apakah asumsi harus diuji lebih awal tergantung pada jenis analisis. Asumsi-asumsi reliabilitas sebaiknya dicek terlebih dahulu, terutama jika alat ukur baru atau belum divalidasi. Jika alat ukur sudah divalidasi di penelitian sebelumnya, asumsi ini bisa lebih fleksibel (boleh tidak dilakukan). Untuk analisis seperti IRT atau CFA, asumsi penting harus diperiksa sebelum analisis, karena asumsi yang dilanggar dapat menghasilkan kesimpulan yang keliru. Dalam analisis yang lebih eksploratif, seperti EFA, asumsi dapat diperiksa baik sebelum maupun selama analisis.
Dilema antara Reliabilitas dan Validitas
Reliabilitas mengacu pada konsistensi alat ukur. Artinya, jika alat ukur digunakan berulang kali dalam kondisi yang sama, hasilnya harus serupa. Alat ukur yang reliabel memiliki tingkat error yang rendah. Validitas mengacu pada kemampuan alat ukur untuk benar-benar mengukur apa yang dimaksudkan untuk diukur. Alat ukur yang valid memberikan hasil yang akurat dan relevan dengan tujuan pengukuran.
Sering kali ada trade-off antara meningkatkan reliabilitas dan meningkatkan validitas. Dalam beberapa kasus, meningkatkan salah satu dapat mengorbankan yang lain.
Contoh: Meningkatkan reliabilitas, melemahkan validitas
Jika kita membuat alat ukur dengan item yang sangat seragam (misalnya, pertanyaan yang hampir sama diulang-ulang), reliabilitas mungkin tinggi karena jawabannya konsisten. Namun, validitas bisa menurun karena alat itu mungkin hanya mengukur aspek yang sempit dari suatu konstruk.
Contoh: Meningkatkan validitas, melemahkan reliabilitas
Untuk meningkatkan validitas, alat ukur sering kali perlu mencakup berbagai aspek dari sebuah konstruk. Namun, ini dapat mengurangi reliabilitas karena jawaban responden mungkin lebih bervariasi, dan item-item yang berbeda mungkin tidak selalu konsisten satu sama lain. Misalnya, sebuah kuesioner yang mengukur kepribadian dengan berbagai dimensi (ekstroversi, neurotisisme, dll.) mungkin lebih valid, tetapi jawabannya bisa kurang konsisten antar dimensi.
Solusi:
Pertama, keseimbangan. Dalam praktiknya, pengembang alat ukur berusaha menemukan keseimbangan antara reliabilitas dan validitas. Alat ukur yang ideal adalah yang cukup reliabel untuk memberikan hasil yang konsisten tetapi juga cukup valid untuk mengukur konstruk yang dimaksud.
Kedua, penggunaan yang tepat. Alat ukur dengan reliabilitas tinggi tetapi validitas rendah mungkin cocok untuk tujuan tertentu (seperti screening awal), tetapi tidak untuk diagnosis mendalam.
Dilema Penggunaan Model Rasch atau Item Response Theory (IRT)
Dilema ini dapat terjadi saat kita mengembangkan atau menganalisis alat ukur. Kedua pendekatan, Model Rasch atau IRT, digunakan untuk mengevaluasi kualitas item (pertanyaan) dan kemampuan responden, tetapi memiliki perbedaan signifikan dalam kompleksitas dan hasil informasi.
Model Rasch adalah salah satu jenis model IRT yang paling sederhana dan ketat. Fokus utamanya adalah pada kesesuaian data dengan model. Jika data tidak sesuai, maka Model Rasch menyarankan revisi pada alat ukur atau data tersebut. Model ini hanya mempertimbangkan satu parameter, yaitu tingkat kesulitan item. Semua responden dianggap memiliki probabilitas yang sama untuk menjawab item dengan benar, tergantung pada kemampuan mereka dan tingkat kesulitan item tersebut.
Model Rasch memiliki beberapa keunggulan: 1) Sederhana dan mudah dipahami karena hanya mengandalkan satu parameter (kesulitan item), sehingga analisisnya lebih mudah dilakukan, 2) Data yang sesuai dengan Rasch biasanya dianggap berkualitas tinggi, dan 3) Rasch mengukur kemampuan individu secara independen dari alat ukur dan sebaliknya. Namun, kelemahannya: 1) Karena hanya memperhitungkan satu parameter (kesulitan item), Model Rasch mengabaikan faktor lain, seperti diskriminasi item atau kemungkinan tebak-tebakan. Dengan demikian, model ini tidak cocok digunakan untuk menganalisis alat ukur yang kompleks atau memerlukan analisis lebih kaya.
IRT adalah pendekatan yang lebih luas, dengan model-model yang dapat menggunakan lebih banyak parameter (1PL, 2PL, dan 3PL). IRT memberikan informasi yang lebih kaya tentang karakteristik item, seperti kemampuan diskriminasi dan efek tebak-tebakan. IRT cocok untuk berbagai jenis alat ukur dan populasi, serta dapat digunakan dalam pengujian adaptif komputer (CAT), di mana tingkat kesulitan item dapat disesuaikan dengan kemampuan responden. Kelemahannya, analisis dengan IRT memerlukan perhitungan matematis yang lebih rumit dan data yang lebih banyak untuk analisis. Untuk melakukan ini, dibutuhkan software khusus dan pengetahuan yang lebih mendalam untuk menginterpretasikan hasil.
Solusi:
Pertama, pertimbangan tujuan pengukuran. Jika alat ukur dirancang untuk keperluan sederhana, seperti survei singkat atau tes kecil, Model Rasch mungkin cukup. Sementara, untuk alat ukur yang lebih kompleks, seperti tes kemampuan besar (misalnya, TOEFL), IRT lebih cocok. Kedua, pertimbangan sumber daya. Jika waktu, keahlian, atau perangkat analisis terbatas, Rasch adalah pilihan praktis. Jika sumber daya tersedia dan analisis yang kaya dibutuhkan, IRT menjadi pilihan unggul.fo