Category Archives: Pengukuran Psikologi & pendidikan

Protokol Pengembangan dan Validasi Alat Ukur Psikologi: Dari Konsepsi hingga Penggunaan Luas

Pengembangan dan validasi alat ukur psikologi adalah proses yang panjang, sistematis, dan iteratif. Ini bukan sekadar serangkaian analisis statistik, melainkan studi komprehensif yang melibatkan teori, desain, pengujian empiris, dan penyempurnaan. Urutan studi dan analisis yang diperlukan dapat bervariasi tergantung pada model pengembangan yang digunakan (misalnya, Messick’s Unified Concept of Validity, Kane’s Argument-Based Approach to Validation), tetapi secara umum, ini adalah alur yang sering diikuti:

Fase 1: Konseptualisasi dan Desain Awal (Pre-Empiris)

Ini adalah fondasi dari seluruh proses, di mana kerangka teoritis alat ukur dibangun.

  1. Studi Konseptualisasi/Definisi Konstruk:

    • Tujuan: Mendefinisikan secara jelas konstruk psikologi yang akan diukur. Apa itu? Apa saja dimensinya? Bagaimana hubungannya dengan konstruk lain?
    • Analisis/Studi:
      • Tinjauan Pustaka Komprehensif: Mengumpulkan dan mensintesis literatur yang ada tentang konstruk.
      • Wawancara/FGD dengan Ahli/Populasi Target: Menggali pemahaman dan pengalaman ahli atau individu dari populasi target tentang konstruk.
      • Analisis Konseptual: Mengembangkan definisi operasional dan teoretis yang kuat untuk konstruk.
    • Output: Definisi konstruk yang jelas, identifikasi dimensi (jika multidimensional), dan kerangka teoretis.
  2. Studi Pengembangan Item (Item Generation):

    • Tujuan: Membuat kumpulan item awal yang relevan, jelas, dan representatif untuk mengukur konstruk.
    • Analisis/Studi:
      • Brainstorming/Penulisan Item: Berdasarkan definisi konstruk, item-item ditulis.
      • Review Ahli (Content Validity/Expert Review): Ahli materi dan/atau psikometri meninjau item untuk relevansi, kejelasan, kesesuaian bahasa, dan cakupan konstruk.
      • Focus Group Discussion (FGD) dengan Populasi Target: Menguji pemahaman item, respons awal, dan potensi ambiguitas dari perspektif calon responden.
    • Output: Kumpulan item awal yang telah direvisi berdasarkan masukan kualitatif.

Fase 2: Uji Coba Awal dan Perbaikan (Pilot Testing & Refinement)

Setelah item awal siap, dilakukan pengujian skala kecil untuk mengidentifikasi masalah awal.

  1. Studi Uji Coba Awal (Pilot Testing):

    • Tujuan: Mengidentifikasi item yang bermasalah, instruksi yang tidak jelas, atau masalah format sebelum pengumpulan data skala besar.
    • Analisis/Studi:
      • Pengumpulan Data Skala Kecil: Administrasi instrumen kepada sampel kecil dari populasi target (sekitar 30-100 orang).
      • Analisis Deskriptif Item: Melihat distribusi respons, rata-rata, standar deviasi, dan missing data untuk setiap item.
      • Analisis Kualitatif/Wawancara Kognitif: Meminta responden untuk “berpikir keras” saat menjawab item atau menanyakan mengapa mereka memilih respons tertentu.
    • Output: Identifikasi item yang perlu direvisi atau dibuang, perbaikan instruksi dan format.

Fase 3: Uji Coba Utama dan Analisis Psikometris Mendalam (Main Field Testing & Psychometric Analysis)

Ini adalah fase di mana data skala besar dikumpulkan dan analisis statistik yang mendalam dilakukan.

  1. Studi Uji Coba Utama (Main Field Testing/Large-Scale Data Collection):

    • Tujuan: Mengumpulkan data dari sampel yang representatif dan cukup besar untuk analisis psikometris yang robust.
    • Analisis/Studi:
      • Pengumpulan Data Skala Besar: Administrasi instrumen kepada sampel yang lebih besar (biasanya ratusan hingga ribuan responden, tergantung pada kompleksitas model dan tujuan).
    • Output: Dataset yang siap untuk analisis psikometris.
  2. Studi Validitas Konstruk (Construct Validity):

    • Tujuan: Membuktikan bahwa alat ukur benar-benar mengukur konstruk yang dimaksud.
    • Analisis/Studi:
      • Analisis Faktor Eksploratori (EFA): Jika struktur dimensi belum jelas atau ingin diverifikasi.
      • Analisis Faktor Konfirmatori (CFA): Untuk menguji hipotesis tentang struktur dimensi yang telah didefinisikan secara teoritis.
      • Analisis Rasch Model (atau IRT lainnya):
        • Uji Unidimensionalitas: Memastikan item mengukur satu dimensi dominan (atau dimensi yang ditentukan dalam model multidimensional).
        • Item Fit Analysis: Mengidentifikasi item yang tidak sesuai dengan model (misfit).
        • Person Fit Analysis: Mengidentifikasi responden dengan pola respons yang tidak biasa.
        • Category Thresholds (untuk politomus): Memastikan kategori respons berfungsi secara berurutan.
        • Item Measure & Person Measure: Estimasi kesulitan item dan kemampuan person.
        • Wright Map: Visualisasi targeting item dan person.
    • Output: Bukti statistik tentang struktur dimensi dan bagaimana item/person sesuai dengan model.
  3. Studi Reliabilitas (Reliability):

    • Tujuan: Menilai konsistensi dan stabilitas pengukuran.
    • Analisis/Studi:
      • Internal Consistency:
        • Cronbach’s Alpha: Ukuran paling umum.
        • Rasch Person Reliability/Separation Index: Dalam konteks Rasch, ini adalah ukuran yang lebih tepat untuk reliabilitas dan kemampuan alat ukur membedakan individu.
      • Test-Retest Reliability: Administrasi ulang instrumen pada waktu berbeda kepada sampel yang sama.
      • Inter-Rater Reliability: Jika ada penilai/rater (misalnya, Cohen’s Kappa, ICC).
    • Output: Koefisien reliabilitas yang mendukung konsistensi pengukuran.
  4. Studi Validitas Kriteria (Criterion-Related Validity):

    • Tujuan: Menilai seberapa baik skor alat ukur berhubungan dengan kriteria eksternal yang relevan.
    • Analisis/Studi:
      • Validitas Konkuren (Concurrent Validity): Korelasi dengan kriteria yang diukur pada waktu yang sama.
      • Validitas Prediktif (Predictive Validity): Korelasi dengan kriteria yang diukur di masa depan.
    • Output: Koefisien korelasi yang menunjukkan hubungan dengan kriteria.
  5. Studi Validitas Konvergen dan Diskriminan (Convergent & Discriminant Validity):

    • Tujuan: Menilai apakah alat ukur berkorelasi tinggi dengan alat ukur lain yang mengukur konstruk serupa (konvergen) dan berkorelasi rendah dengan alat ukur yang mengukur konstruk berbeda (diskriminan).
    • Analisis/Studi:
      • Korelasi: Mengukur korelasi antara skor alat ukur baru dengan skor alat ukur lain.
      • Multitrait-Multimethod Matrix (MTMM): Desain yang lebih kompleks untuk menguji konvergen dan diskriminan secara simultan.
    • Output: Koefisien korelasi yang mendukung pola konvergen dan diskriminan.
  6. Studi Differential Item Functioning (DIF):

    • Tujuan: Mengidentifikasi item yang berfungsi secara berbeda untuk kelompok-kelompok yang setara dalam kemampuan laten, mengindikasikan potensi bias atau ketidakadilan.
    • Analisis/Studi:
      • DIF Analysis (menggunakan metode Rasch-DIF, Mantel-Haenszel, atau Logistic Regression DIF): Membandingkan parameter item antar kelompok.
    • Output: Identifikasi item-item yang menunjukkan DIF, klasifikasi magnitudenya, dan potensi implikasi.

Fase 4: Standardisasi, Norma, dan Manual (Standardization & Dissemination)

Setelah alat ukur terbukti valid dan reliabel, langkah selanjutnya adalah membuatnya siap untuk penggunaan praktis.

  1. Studi Standardisasi dan Pengembangan Norma:

    • Tujuan: Mengembangkan panduan untuk administrasi, skoring, dan interpretasi, serta membuat tabel norma untuk membandingkan skor individu dengan populasi.
    • Analisis/Studi:
      • Pengumpulan Data Norma: Administrasi instrumen kepada sampel yang sangat besar dan representatif dari populasi target.
      • Analisis Statistik Deskriptif: Menghitung rata-rata, standar deviasi, persentil, dan skor standar (Z-score, T-score, dll.) untuk kelompok usia, jenis kelamin, atau demografi lain.
    • Output: Tabel norma, panduan skoring, dan interpretasi.
  2. Penyusunan Manual Alat Ukur:

    • Tujuan: Menyediakan semua informasi yang diperlukan bagi pengguna alat ukur untuk mengadministrasikan, melakukan skoring, menginterpretasi, dan memahami dasar psikometris alat ukur.
    • Analisis/Studi:
      • Dokumentasi Komprehensif: Menggabungkan semua hasil dari studi sebelumnya (teori, pengembangan item, validitas, reliabilitas, DIF, norma).
    • Output: Manual alat ukur yang lengkap dan profesional.

Fase 5: Penggunaan dan Pemeliharaan Berkelanjutan (Ongoing Use & Maintenance)

Validasi adalah proses yang berkelanjutan.

  1. Studi Validasi Lintas Budaya/Populasi (Cross-Cultural/Population Validation):

    • Tujuan: Jika alat ukur akan digunakan di populasi atau budaya yang berbeda, studi tambahan diperlukan untuk memastikan ekivalensi pengukuran.
    • Analisis/Studi:
      • Analisis Invariance Pengukuran (Measurement Invariance): Menguji apakah struktur faktor dan parameter item setara antar kelompok/budaya.
      • DIF Lintas Budaya: Mengidentifikasi item yang berfungsi berbeda di budaya/bahasa lain.
    • Output: Bukti validitas dan keadilan di konteks baru.
  2. Studi Re-validasi dan Pembaruan:

    • Tujuan: Menguji ulang properti psikometris alat ukur secara berkala, terutama jika ada perubahan signifikan dalam konstruk, populasi, atau konteks penggunaan.
    • Analisis/Studi: Mengulang beberapa analisis dari Fase 3.
    • Output: Pembaruan manual atau edisi baru alat ukur.

Setiap studi di atas saling terkait dan membangun satu sama lain. Proses ini memastikan bahwa alat ukur yang dihasilkan tidak hanya mengukur apa yang seharusnya diukur, tetapi juga melakukannya secara konsisten, akurat, dan adil bagi berbagai individu.


Thanks, Gemini!

Filsafat Psikometrika

Ontologi, epistemologi, dan aksiologi adalah tiga pilar dalam filsafat ilmu pengetahuan. Ontologi membahas hakikat realitas atau “apa yang benar-benar ada”. Epistemologi  mengkaji sifat, asal-usul, batas, dan validitas pengetahuan. Aksiologi membahas nilai, etika, dan tujuan dari suatu aktivitas ilmu pengetahuan.

Dalam konteks psikometrika, ontologi berusaha menemukan jawaban atas pertanyaan: Apa sebenarnya konstruk psikologis itu? Apakah konstruk tersebut “ada” secara objektif atau hanya produk sosial? Epistemologi berusaha menjawab pertanyaan: Apa dan bagaimana kita bisa “mengetahui” sesuatu melalui pengukuran psikologis, serta apa batas pengetahuan tersebut? Sementara, aksiologi menyoroti pertanyaan: Untuk apa kita mengukur? Apa dampak penggunaan alat ukur?

Ontologi Psikometrika

Dalam dimensi ontologi, psikometrika adalah tentang definisi dan hakikat atau sifat dari konstruk psikologis yang diukur. Konstruk Psikologis adalah atribut atau karakteristik yang tidak bisa diamati langsung, misalnya: kecerdasan, motivasi, kepribadian, kecemasan, dsb. Ontologi psikometrika bertanya: Apakah konstruk ini entitas nyata di dalam diri manusia? Atau, apakah konstruk itu produk sosial-kultural, artifak yang dibuat untuk membantu pemahaman dan pengukuran?

Untuk menjawab pertanyaan-pertanyaan ontologis ini, terdapat dua pendekatan yang membantu kita: Pertama, realisme ontologis. Konstruk ada secara objektif (meski tidak langsung teramati), sehingga pengukuran berupaya merepresentasikan realitas itu. Contoh: Kecerdasan sebagai kapasitas kognitif yang nyata. Kedua, konstruktivisme sosial. Konstruk dipahami sebagai hasil interaksi sosial dan budaya. Artinya, konstruk tidak mutlak, tapi kontekstual dan dapat berubah. Contoh: Konsep “kepemimpinan” yang berbeda antar budaya.

Berdasarkan dua pendekatan ini, maka ada beberapa implikasi yang harus kita perhatikan saat mengembangkan suatu pengukuran psikologis.

  1. Pada tahap konseptualisasi tes psikologi, definisi konstruk harus eksplisit dan sesuai konteks penelitian.
  2. Pada tahap pengembangan butir, butir-butir perlu ditulis dengan konten yang relevan dengan budaya di mana penelitian hendak dilakukan. Hal ini karena, konstruk psikologis tidak selalu bersifat tetap dan universal. Penting sekali dilakukan konstruksi sosial dan analisis lintas-budaya.
  3. Pada tahap eksplorasi dimensionalitas tes, maka kita perlu memutuskan apakah konstruk merupakan satu entitas tunggal atau terdiri dari beberapa entitas/komponen yang berbeda tapi terkait. Berikutnya, hal ini akan mempengaruhi model statistik yang digunakan untuk menganalisis properti psikometrik dari tes. Pemilihan model statistik harus harus sesuai dengan realitas ontologis konstruk agar model menghasilkan hasil yang valid dan bermakna.

Epistemologi Psikometrika

Epistemologi berkaitan dengan sumber, sifat, batas, dan validitas pengetahuan. Dalam psikometrika, epistemologi berfokus pada validitas dan interpretasi skor. Dalam dimensi epistemologis, kita diajak untuk berefleksi tentang: Apa yang sebenarnya kita “ketahui” ketika kita melakukan pengukuran psikologis? Bagaimana kita tahu bahwa skor yang diperoleh benar-benar merefleksikan konstruk psikologis? Seberapa sah inferensi yang kita buat dari skor? Apa batas inferensi dari data skor ke sifat psikologis sebenarnya? Bagaimana metode dan model pengukuran mendukung validitas inferensi? Apa batas-batas pengetahuan yang dihasilkan dari alat ukur?

Psikometrika modern umumnya berlandaskan pada realism-konstruktif, yakni: konstruk psikologis dianggap ada, tapi tidak dapat diobservasi langsung. Maka dari itu, kita hanya dapat mengukurnya lewat indikator (butir). Dari respon individu terhadap butir, kita mendapatkan skor individu yang menginformasikan keberadaan atribut psikologis pada dirinya. Persoalannya, pengetahuan kita dari skor bergantung pada bukti dan argumen validitas skor tersebut, bukan hanya angka reliabilitas. Maka, kita perlu mengumpulkan bukti-bukti dukungan terhadap derajat keabsahan inferensi dari skor ke konstruk (validitas konstruk).

Apakah angka (numerik) dapat mewakili pengalaman mental atau psikologis individu? Untuk menjawab pertanyaan ini, terdapat perdebatan. Secara positivistik, ya, angka dapat merepresentasikan pengalaman psikologis, asal terstandarisasi dan model pengukurannya tepat. Sementara, dari paradigma konstruktivistik/ kritis, tidak sepenuhnya, karena makna subjektif tidak selalu direduksi ke angka. Implikasi dari perdebatan ini adalah, studi-studi psikometrika kontemporer mengakui kedua hal ini dan mulai menggabungkan metode proses-respons dan validitas konsekuensial dalam pembuktian validitas konstruk.

Apakah skor itu benar tentang individu peserta tes? Tidak. Dalam epistemologi psikometrika, skor merupakan estimasi dari atribut laten, dan selalu mengandung ketidakpastian. Sifat ini menjadi pertimbangan utama dalam model-model analisis modern, seperti Item Response Theory (IRT) dan Rasch Model, bahwa skor adalah fungsi probabilistik dari trait dan parameter item, dan bukan merupakan fakta tetap.

Pemahaman tentang epistemologi ini memiliki sejumlah implikasi:

  1. Instrumen psikologis bukan sekadar alat teknis, tapi juga produk dari teori, nilai, dan asumsi budaya. Maka dari itu, revisi terhadap tes senantiasa dilakukan sesuai dengan perkembangan teori dan nilai yang berlaku dalam budaya di mana pengukuran dilakukan.
  2. Pengukuran psikologis adalah aktivitas inferensial (penarikan kesimpulan), bukan pengambilan data objektif langsung. Dalam setiap pengukuran psikologis, selalu terdapat ruang terjadinya error pengukuran. Error pengukuran yang terjadi secara sistematis maupun acak mungkin tidak dapat dihilangkan sepenuhnya, tetapi dapat diminimalkan dengan menggunakan instrumen terstandar dan model pengukuran yang tepat.

Aksiologi Psikometrika

Aksiologi adalah cabang filsafat yang membahas nilai, etika, dan tujuan dari suatu aktivitas ilmu pengetahuan. Dalam psikometrika, aksiologi bertanya: Untuk apa pengukuran ini dilakukan? Apa nilai dan dampak sosial yang ingin dicapai?

Pengukuran yang baik harus memperhatikan aspek etika. Ruang lingkup diskusi aksiologis meliputi:

  1. Tujuan pengukuran (test use). Apakah pengukuran ini untuk diagnosis klinis, seleksi, pengembangan, atau riset? Setiap tujuan memiliki desain instrumen dan standar interpretasi tertentu.
  2. Keadilan (fairness). Apakah instrumen adil bagi semua kelompok? Ada bias atau diskriminasi? Untuk memastikan pengukuran bersifat adil bagi semua kelompok (yang berbeda-beda berdasarkan jenis kelamin, usia, variasi etnis, dan faktor demografis lainnya), maka perlu dilakukan Analisis DIF (Differential Item Functioning) dan penyesuaian konten (adaptasi budaya), agar tidak terjadi bias dan diskriminasi.
  3. Konsekuensi pengukuran. Apa dampak positif atau negatif dari keputusan yang diambil oleh test user berdasarkan skor? Maka, perlu dilakukan evaluasi validitas konsekuensial dan  pertimbangan etika.
  4. Tanggung jawab sosial. Apakah penggunaan alat menguntungkan masyarakat atau malah merugikan? Maka, pengembang tes tidak cukup hanya membuat alat tes, tetapi juga bersama stakeholder lainnya menyusun kebijakan penggunaan, pelatihan bagi pengguna agar pengguna mengerti keterbatasan dan dampak tes, dan transparansi proses-proses pengukuran. Pengembang dan pengguna alat ukur wajib bertanggung jawab menjaga kualitas, keamanan data, serta transparansi penggunaan.

Mengintegrasikan Ketiga Pilar

Ketiga pilar ini (ontologi, epistemologi, dan aksiologi) adalah fondasi yang saling melengkapi agar pengukuran psikologis tidak hanya akurat secara teknis, tapi juga bermakna, adil, dan bertanggung jawab. Misalnya, kita hendak mengembangkan alat ukur kecemasan sosial untuk mahasiswa Indonesia. Maka, secara ontologis, kita mendefinisikan kecemasan sosial sebagai konstruk laten yang muncul dari kecemasan menghadapi interaksi sosial yang dipengaruhi budaya Indonesia. Secara epistemologis, kita menggunakan model Rasch untuk memvalidasi alat, mengumpulkan bukti-bukti validitas konstruk, serta memperhatikan ketepatan estimasi skor. Dan, secara aksiologis, kita menguji apakah alat ini adil bagi mahasiswa dari berbagai latar budaya etnis, serta mempertimbangkan bagaimana hasil tes bisa digunakan untuk intervensi dan bukan malah menstigmatisasi.

Perkembangan Konstruk Self-Esteem

Pendekatan Awal: Model Unidimensional

Pada awalnya, self-esteem dianggap sebagai konsep unidimensional, di mana seseorang dikategorikan memiliki self-esteem tinggi atau rendah. Rosenberg Self-Esteem Scale (RSES) (Rosenberg, 1965) adalah salah satu alat ukur paling terkenal yang menggunakan pendekatan ini. Skala ini terdiri dari pernyataan positif dan negatif yang menggambarkan bagaimana seseorang menilai dirinya sendiri secara keseluruhan. Namun, penelitian lanjutan menemukan bahwa item positif dan negatif dalam RSES sering kali membentuk dua faktor yang berbeda. Hal ini menantang asumsi bahwa self-esteem adalah konstruk tunggal yang dapat diukur secara linear (Marsh, 1996).

Perkembangan Menuju Model Dual-Factor

Pada tahun 1990-an, muncul teori bahwa self-esteem memiliki dua dimensi utama yang dapat beroperasi secara independen:

  • Self-Esteem Positif → mencerminkan penghargaan terhadap diri sendiri, kebanggaan, dan keyakinan diri.
  • Self-Esteem Negatif → berkaitan dengan perasaan tidak berharga, rendah diri, dan ketidakpuasan diri.

Tennen & Affleck (1993) serta Owens (1993) menunjukkan bahwa seseorang dapat memiliki self-esteem positif dan negatif secara bersamaan. Misalnya, seseorang bisa merasa percaya diri dalam pencapaian akademik tetapi tetap memiliki keraguan mendalam tentang nilai dirinya dalam hubungan sosial. Dalam analisis faktor konfirmatori (CFA), model bifaktorial sering ditemukan lebih sesuai dibandingkan model unidimensional (Marsh et al., 2010).

Dimensi Self-Esteem: Global vs. Spesifik

Pada tahun 1986, Marsh & Shavelson memperkenalkan gagasan bahwa self-esteem dapat dikategorikan menjadi global dan spesifik:

  • Self-esteem global mencerminkan evaluasi menyeluruh seseorang terhadap dirinya sendiri, tanpa memperhitungkan aspek-aspek spesifik dalam hidupnya. Orang dengan self-esteem global tinggi cenderung merasa bahwa dirinya berharga dalam berbagai situasi dan aspek kehidupan.
  • Self-esteem spesifik mengacu pada evaluasi seseorang terhadap dirinya sendiri dalam domain tertentu, seperti akademik, sosial, fisik, atau pekerjaan. Misalnya, seseorang dapat memiliki self-esteem tinggi dalam bidang akademik tetapi rendah dalam interaksi sosial.

Pendekatan multidimensional ini memungkinkan pemahaman yang lebih kaya tentang bagaimana self-esteem beroperasi dalam berbagai aspek kehidupan seseorang. Sebuah skala yang hanya mengukur self-esteem global mungkin tidak cukup untuk menangkap perbedaan ini. Oleh karena itu, alat ukur modern sering kali menyertakan subskala untuk mengevaluasi domain spesifik self-esteem agar hasil pengukuran lebih akurat dan kontekstual (Marsh, 1993; Harter, 1999).

Self-Esteem Eksplisit vs. Implisit

Sejak awal 2000-an, pendekatan pengukuran self-esteem mengalami perkembangan dengan membedakan antara:

  • Self-esteem eksplisit, yang diukur melalui skala kuesioner seperti RSES dan bergantung pada laporan sadar individu tentang dirinya sendiri.
  • Self-esteem implisit, yang diukur melalui metode tidak langsung seperti Implicit Association Test (IAT) yang dikembangkan oleh Greenwald & Farnham (2000), yang mengungkap evaluasi bawah sadar seseorang terhadap dirinya sendiri.

Kadang-kadang terjadi ketidaksesuaian antara self-esteem eksplisit dan implisit. Seseorang dapat secara sadar melaporkan self-esteem yang tinggi tetapi menunjukkan self-esteem negatif dalam pengukuran implisit. Fenomena ini menunjukkan bahwa validitas pengukuran self-esteem bergantung pada metode yang digunakan (Bosson et al., 2000).

Pengaruh Budaya dalam Pengukuran Self-Esteem

Self-esteem tidak hanya bergantung pada struktur psikologis individu tetapi juga dipengaruhi oleh budaya. Markus & Kitayama (1991) menyoroti bahwa dalam budaya individualistik (misalnya, di negara-negara Barat), self-esteem sering dikaitkan dengan pencapaian pribadi dan otonomi. Sebaliknya, dalam budaya kolektivistik (seperti di Asia Timur), self-esteem lebih terkait dengan keharmonisan sosial dan penerimaan oleh kelompok.

Heine et al. (1999) menemukan bahwa orang Jepang cenderung memiliki skor self-esteem eksplisit yang lebih rendah dibandingkan orang Amerika, tetapi bukan berarti mereka memiliki self-esteem rendah. Sebaliknya, self-esteem dalam budaya kolektivistik lebih bersifat relasional dan bergantung pada hubungan sosial. Hal ini menunjukkan bahwa alat ukur yang dikembangkan dalam konteks budaya tertentu tidak selalu dapat diterapkan secara langsung di budaya lain, sehingga memerlukan adaptasi dan validasi lintas budaya (Schmitt & Allik, 2005).

Kesimpulan

Pengukuran self-esteem lebih kompleks daripada sekadar menentukan apakah seseorang memiliki self-esteem tinggi atau rendah. Perkembangannya dari model unidimensional ke model bifaktorial, pembagian self-esteem global vs. spesifik, serta eksplisit vs. implisit menunjukkan bahwa alat ukur harus dirancang dengan hati-hati untuk memastikan validitas konstruknya. Selain itu, faktor budaya juga perlu diperhitungkan agar alat ukur dapat digunakan secara akurat dalam berbagai konteks.

Referensi

  • Bosson, J. K., Swann, W. B., & Pennebaker, J. W. (2000). Stalking the perfect measure of implicit self-esteem: The blind men and the elephant revisited?. Journal of Personality and Social Psychology, 79(4), 631-643.
  • Greenwald, A. G., & Farnham, S. D. (2000). Using the Implicit Association Test to measure self-esteem and self-concept. Journal of Personality and Social Psychology, 79(6), 1022-1038.
  • Heine, S. J., Lehman, D. R., Markus, H. R., & Kitayama, S. (1999). Is there a universal need for positive self-regard?. Psychological Review, 106(4), 766-794.
  • Harter, S. (1999). The construction of the self: A developmental perspective. Guilford Press.
  • Markus, H. R., & Kitayama, S. (1991). Culture and the self: Implications for cognition, emotion, and motivation. Psychological Review, 98(2), 224-253.
  • Marsh, H. W. (1993). The multidimensional structure of academic self-concept: Invariance over gender and age. American Educational Research Journal, 30(4), 841-860.
  • Marsh, H. W., & Shavelson, R. (1986). Self-concept: Its multifaceted, hierarchical structure. Educational Psychologist, 20(3), 107-123.
  • Marsh, H. W., Ellis, L. A., & Parada, R. H. (2010). Unidimensional or multidimensional self-concepts? Journal of Personality and Social Psychology, 98(4), 673-686.
  • Rosenberg, M. (1965). Society and the adolescent self-image. Princeton University Press.
  • Schmitt, D. P., & Allik, J. (2005). Simultaneous administration of the Rosenberg Self-Esteem Scale in 53 nations: Exploring the universal and culture-specific features of global self-esteem. Journal of Personality and Social Psychology, 89(4), 623-642.

Diskusi: Bagaimana implikasi dari kompleksitas ini terhadap pengembangan skala self-esteem di masa depan? Model mana yang menurut Anda lebih sesuai untuk mengukur self-esteem secara akurat dalam berbagai budaya?

Catatan: Artikel ini ditulis dengan AI sebagai materi diskusi/ studi kasus di kelas Psikometrika

Scholastic Aptitude Test, Tes Potensi Akademik

Scholastic Aptitude Test (SAT): Deskripsi

SAT adalah tes standar yang dirancang untuk mengukur keterampilan penting yang diperlukan untuk sukses secara akademik di tingkat perguruan tinggi. Tes ini diikuti oleh siswa sekolah menengah pertama dan atas sebagai persiapan masuk ke perguruan tinggi dan universitas.

SAT dibuat agar lebih selaras dengan pekerjaan yang dilakukan siswa di sekolah menengah dan untuk menciptakan tes yang relevan di dunia modern, di mana keterampilan pemecahan masalah, komunikasi yang jelas, dan pemahaman hubungan kompleks menjadi faktor kunci dalam keberhasilan karier dan kehidupan.

Tes ini bertujuan untuk menilai potensi siswa dalam menyelesaikan pekerjaan di tingkat perguruan tinggi dengan mengevaluasi keterampilan verbal dan matematika mereka.

Latar Belakang Sejarah

Tes College Board pertama kali diselenggarakan pada tahun 1901 di 67 lokasi di Amerika Serikat dan dua lokasi di Eropa. Tes ini berfokus pada mata pelajaran seperti Bahasa Inggris, Prancis, Jerman, Latin, Yunani, sejarah, matematika, kimia, dan fisika. Berbeda dengan SAT saat ini, tes tersebut tidak berbentuk pilihan ganda dan hasilnya dievaluasi dengan kategori seperti “sangat baik”, “baik”, “meragukan”, “kurang”, atau “sangat kurang”.

Keinginan yang semakin besar dari para pendidik Amerika untuk membuka akses perguruan tinggi bagi siswa terbaik di seluruh negeri mendorong pelaksanaan SAT pertama kali pada tahun 1926. “Scholastic Aptitude Test” dirancang sebagai alternatif dari ujian “College Boards” sebelumnya. Jika ujian lama berbasis kurikulum dan menguji penguasaan materi akademik, SAT menawarkan sesuatu yang baru: tes berbentuk pilihan ganda yang lebih mudah dinilai dan mengukur kemampuan umum siswa dalam belajar.

SAT berkembang dari pengalaman pengujian IQ selama Perang Dunia Pertama, ketika dua juta pria diuji dan diberi skor IQ berdasarkan hasilnya. Pembuat tes saat itu beranggapan bahwa kecerdasan adalah atribut tunggal yang diwariskan, tidak berubah sepanjang hidup, dapat diukur dengan satu angka, dan dapat digunakan untuk menentukan posisi seseorang dalam masyarakat. Meskipun SAT kemudian dikembangkan dengan pendekatan psikometrik yang lebih canggih, tes ini tetap berasal dari asumsi yang meragukan tentang bakat dan potensi manusia.

Namun, terutama setelah Perang Dunia II, SAT semakin diterima dalam sistem penerimaan perguruan tinggi di Amerika yang berorientasi pada meritokrasi. Berbeda dengan nilai sekolah menengah yang bisa bervariasi, SAT memberikan standar yang seragam dan dapat diadakan dengan biaya relatif rendah untuk banyak siswa. Jika kemampuan belajar bisa diukur secara andal, SAT dapat membantu mengidentifikasi siswa dari latar belakang kurang beruntung yang tetap layak masuk perguruan tinggi, sehingga meningkatkan akses dan kesetaraan dalam penerimaan mahasiswa.

Lebih dari itu, SAT menawarkan alat prediksi bagi petugas penerimaan perguruan tinggi, membantu mereka membedakan antara pelamar yang kemungkinan besar akan berhasil atau mengalami kesulitan di tingkat perguruan tinggi. Tidak heran jika tes ini mendapat penerimaan luas di era pascaperang.

Perkembangan

SAT pertama kali dikembangkan oleh psikolog dari Princeton, Carl Campbell Brigham, yang juga menciptakan tes IQ. Tes ini awalnya menguji berbagai kemampuan, termasuk definisi kata, aritmetika, klasifikasi, bahasa buatan, antonim, deret angka, analogi, inferensi logis, dan membaca paragraf. Tujuan awal SAT adalah menghilangkan bias dalam tes bagi individu dari berbagai latar belakang sosial-ekonomi. Namun, Brigham kemudian mengkritik gerakan tes standar, yang menyebabkan perkembangan SAT terhambat hingga kematiannya pada tahun 1943.

Pada tahun 1946, Henry Chauncey, dekan di Harvard, menjadi presiden pertama dari Educational Testing Service (ETS), dan di bawah kepemimpinannya, SAT berkembang pesat. Sejak 1926, jumlah bagian dalam SAT telah mengalami berbagai perubahan, termasuk peningkatan batas waktu agar peserta memiliki kesempatan lebih besar untuk memperoleh skor tinggi.

Awalnya, bagian matematika dihilangkan dan hanya menguji kemampuan verbal (1928–1929). Namun, pada tahun 1930, bagian matematika dimasukkan kembali, dan format ini bertahan hingga 2004. Pada periode ini, bagian matematika juga disederhanakan menjadi hanya soal pilihan ganda.

Pada tahun 1946, pertanyaan membaca paragraf dan “double definition” dihapus, lalu diganti dengan pemahaman bacaan dan penyelesaian kalimat. Beberapa perubahan lainnya terus terjadi, dan pada tahun 1980, SAT disesuaikan agar memberikan kesempatan lebih besar bagi kelompok minoritas untuk diterima di perguruan tinggi bergengsi.

Perubahan besar lainnya terjadi pada tahun 1994, ketika soal matematika mulai mencakup pertanyaan non-pilihan ganda serta konsep baru seperti probabilitas, kemiringan garis (slope), statistika dasar, perhitungan, median, dan modus.

Awalnya, tes ini disebut “Scholastic Aptitude Test”, tetapi pada tahun 1990 namanya diubah menjadi “Scholastic Assessment Test”. Sejak 1993, hanya nama “SAT” yang digunakan tanpa kepanjangan resmi. Skor SAT juga mengalami penyesuaian ke skala 1600 poin, mencakup subskor dan skor lintas-tes untuk Matematika serta Evidence-Based Reading and Writing (ERW).

Saat ini, semua perguruan tinggi di Amerika Serikat menerima SAT sebagai ujian masuk, dan pada tahun 2015, sekitar 1,7 juta siswa SMA di Amerika mengikuti SAT untuk penempatan di perguruan tinggi atau universitas.

Komponen SAT

Bagian Verbal
Versi terbaru dari bagian verbal SAT mencakup:

  • Analogi: Mengukur keterampilan penalaran dan kosakata (19 soal).
  • Penyelesaian kalimat: Menguji pemahaman hubungan logis dan kosakata dalam konteks kalimat (19 soal).
  • Pemahaman bacaan: Berisi empat bacaan dengan panjang antara 400 hingga 800 kata, menguji keterampilan penalaran lanjutan, pemahaman harfiah, serta kosakata dalam konteks (40 soal). Dua bacaan disajikan berpasangan dengan perspektif yang berbeda (misalnya, dua sisi dari satu argumen), sementara satu bacaan berhubungan dengan isu minoritas.

Bagian Matematika
Sebelum tahun 1994, bagian matematika hanya berisi soal pilihan ganda (40 soal) dan perbandingan kuantitatif (20 soal). Materi yang diujikan mencakup aritmetika serta penalaran aljabar dan geometri, yang disajikan dalam dua sesi berdurasi 30 menit.

Setelah revisi, dua jenis soal ini tetap dipertahankan, tetapi dengan beberapa perubahan utama:

  • Peserta kini diperbolehkan menggunakan kalkulator.
  • Beberapa soal tidak lagi berbentuk pilihan ganda; peserta harus menuliskan sendiri jawaban mereka.
  • Terdapat 35 soal pilihan ganda, 15 soal perbandingan kuantitatif, dan 10 soal isian singkat atau “student-produced responses”.
  • Soal-soal matematika dibagi dalam dua sesi berdurasi 30 menit dan satu sesi berdurasi 15 menit.

Perubahan-perubahan ini bertujuan untuk lebih menekankan keterampilan pemecahan masalah dalam matematika.


Tes Potensi Akademik (TPA), Indonesia

Di Indonesia, Tes Potensi Akademik (TPA) adalah salah satu alat ukur untuk menilai kemampuan kognitif umum yang bersifat potensial (mengukur performa maksimal). Tes ini dirancang khusus untuk memprediksi peluang keberhasilan seseorang dalam belajar di perguruan tinggi.

Secara konseptual, TPA di Indonesia mengadaptasi prinsip dari Graduate Record Examinations (GRE), yang terdiri dari Verbal Reasoning (V), Quantitative Reasoning (Q), dan Analytical Writing (AW). Namun, dalam penerapannya, TPA mengalami beberapa modifikasi. Umumnya, TPA terdiri dari tiga subtes utama:

  • Subtes Verbal (mengukur pemahaman kata dan hubungan antar kata),
  • Subtes Kuantitatif (mengukur pemahaman konsep matematika dasar dan kemampuan berpikir numerik),
  • Subtes Penalaran (mengukur kemampuan berpikir logis dan analitis).

Mengapa TPA Digunakan sebagai Syarat Masuk Perguruan Tinggi?

TPA digunakan sebagai salah satu syarat masuk perguruan tinggi karena tes ini dirancang untuk mengukur kemampuan seseorang dalam menyelesaikan masalah kognitif secara cepat dan strategis. Kemampuan ini dikenal sebagai general reasoning ability, yang sangat diperlukan dalam lingkungan akademik tingkat lanjut.

Di perguruan tinggi, keberhasilan belajar lebih bergantung pada kemampuan berpikir kritis dan analitis, bukan sekadar mengikuti metode pembelajaran yang terstruktur seperti di sekolah menengah. Oleh karena itu, TPA lebih mengutamakan kemampuan penalaran daripada penguasaan materi pelajaran tertentu.

Berbeda dengan tes prestasi yang mengukur hasil belajar berdasarkan silabus suatu mata pelajaran, TPA tidak berbasis kurikulum tertentu. Oleh karena itu, keberhasilan dalam menjawab soal TPA tidak banyak dipengaruhi oleh seberapa luas seseorang menguasai mata pelajaran tertentu, melainkan lebih bergantung pada kemampuan berpikir logis dan analitis.

Sebagai contoh:

  • Soal Geometri dalam TPA dapat dijawab tanpa harus menghafal rumus-rumus geometri yang kompleks.
  • Soal Aritmetika dalam TPA tidak menuntut peserta untuk menggunakan rumus matematis secara langsung, tetapi lebih mengandalkan kemampuan penalaran dan strategi pemecahan masalah kuantitatif secara umum.
  • Soal Konsep Aljabar dalam TPA lebih berfokus pada pemahaman konsep dasar aljabar daripada sekadar menghafal dan menerapkan rumus-rumus hitungan.

Tantangan dalam Penggunaan TPA

Dalam praktiknya, tes abilitas seperti TPA sering digunakan untuk diagnosis individu dan seleksi akademik, meskipun sering kali tanpa melalui uji empiris yang ketat terhadap kualitas butir soal. Hal ini terjadi karena:

  • Kerahasiaan butir soal perlu dijaga agar tes tetap valid dan tidak bocor ke publik.
  • Keterbatasan data kriterion, sehingga sulit untuk melakukan validasi prediktif secara ideal.

Namun, meskipun ada keterbatasan, TPA tetap menjadi alat yang penting dalam seleksi akademik, karena dapat memberikan gambaran objektif tentang kemampuan berpikir calon mahasiswa di luar sekadar nilai akademik mereka.

SUMBER BACAAN

Atkinson, R. C., & Geiser, S. (2009). Reflections on a century of college admissions tests. Educational Researcher, 38(9), 665-676.

Ferdian, F. R., & Azwar, S. (2019). PAPS predictive validity in predicting the learning success of master of professional psychology students. Jurnal Penelitian dan Evaluasi Pendidikan, 23(2), 117-128.

McDonald, A. S., Newton, P. E., Whetton, C., & Benefield, P. (2001). Aptitude testing for university entrance: A literature review. Berkshire, UK: National Foundation for Educational Research.

van Schalkwyk, G. J. (2017). Scholastic Aptitude Test. Encyclopedia of Clinical Neuropsychology, 1-4.