Bahan ujian atau soal yang bermutu dapat membantu pendidik meningkatkan pembelajaran dan memberikan informasi dengan sempurna tentang peserta didik mana yang belum atau sudah mencapai kompetensi. Salah satu ciri soal yang bermutu yakni bahwa soal itu sanggup membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta didik dalam memahami materi pembelajaran, semakin tinggi pula peluang menjawab benar soal atau mencapai kompetensi yang ditetapkan. Makin rendah kemampuan peserta didik dalam memahami materi pembelajaran, makin kecil pula peluang menjawab benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.
Syarat soal yang bermutu yakni bahwa soal harus sahih (valid), dan handal. Sahih maksudnya bahwa setiap alat ukur hanya mengukur satu dimensi/aspek saja. Mistar hanya mengukur panjang, timbangan hanya mengukur berat, materi ujian atau soal PKn hanya mengukur materi pembelajaran PKn bukan mengukur keterampilan/kemampuan materi yang lain. Handal maksudnya bahwa setiap alat ukur harus dapat memberikan hasil pengukuran yang tepat, cermat, dan ajeg. Untuk dapat menghasilkan soal yang sahih dan handal, penulis soal harus merumuskan kisi-kisi dan menulis soal berdasarkan kaidah penulisan soal yang baik (kaidah penulisan soal bentuk objektif/pilihan ganda, uraian, atau praktik).
Bagiamana Pedoman Menyusun Soal yang Bermutu ? Linn dan Gronlund (1995: 47) menyatakan bahwa tes yang baik harus memenuhi tiga karakteristik, yaitu: validitas, reliabilitas, dan usabilitas. Validitas artinya ketepatan interpretasi hasil prosedur pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan usabilitas artinya simpel prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga menyatakan bahwa tes yang baik adalah tes yang valid artinya mengukur apa yang hendak diukur. Nitko (1996 : 36) menyatakan bahwa validitas bekerjasama denganinterpretasi atau makna dan penggunaan hasil pengukuran peserta didik.
Messick (1993: 13) menjelaskan bahwa validitas tes merupakan suatu integrasi pertimbangan evaluatif derajat keterangan empiris yang mendasarkan pemikiran teoritis yang mendukung ketepatan dan kesimpulan berdasarkan pada skor tes. Adapun validitas dalam model Rasch yakni sesuai atau fit dengan model (Hambleton dan Swaminathan, 1985: 73).
Messick (1993: 16) menyatakan bahwa validitas secara tradisional terdiri dari: (1) validitas isi, yaitu ketepatan materi yang diukur dalam tes; (2) validitas criterion-related, yaitu membandingkan tes dengan satu atau lebih variabel atau kriteria, (3) valitidas prediktif, yaitu ketepatan hasil pengukuran dengan alat lain yang dilakukan kemudian; (4) validitas serentak (concurrent), yaitu ketepatan hasil pengukuran dengan dua alat ukur lainnya yang dilakukan secara serentak; (5) validitas konstruk, yaitu ketepatan konstruksi teoretis yang mendasari disusunnya tes. Linn dan Gronlund (1995 : 50) menyatakan hahwa valilitas terdiri dari: (1) konten. (2) test-criterion relationship, (3) konstruk, dan (4) consequences, yaitu ketepatan penggunaan hasil pengukuran. Sedangkan berdasarkan Oosterhof (190 : 23) yang mengutip berdasarkan "Standards for Educational and Psychological Testing, 1985" yang didukung oleh Ebel dan Frisbie (1991 : 102-109), serta Popham (1995 : 43) bahwa tipe validitas yakni validitas: (1) content, (2) criterion, dan (3) construction.
Di samping validitas, informasi tentang reliabilitas tes sangat diperlukan. Nitko (1999 : 62) dan Popham (1995 : 21) menyatakan bahwa reliabilitas berhubungan dengan konsistensi hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu bahwa reliabilitas merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes yang memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat, reproducible; dan gereralizable terhadap kesempatan testing dan instrumen tes yang sama. (Ebel dan Frisbie (1991 : 76). Faktor yang mensugesti reliabilitas yang berhubungan dengan tes adalah: (1) banyak butir, (2) homogenitas materi tes, (3) homogenitas karakteristik butir, dan (4) variabilitas skor. Reliabilitas yang berhubungan dengan peserta didik dipengaruhi oleh faktor: (1) heterogenitas kelompok, (2) pengalaman penerima didik mengikuti tes, dan (3) motivasi penerima didik. Sedangkan faktor yang mempengaruhi reliabilitas yang berhubungan dengan administrasi yakni batas waktu dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).
Linn dan Gronlund menyatakan bahwa metode estimasi dapat dilakukan dengan mempergunakan: (1) metode test-retest, yaitu diberikan tes yang sama dua kali pada kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas; (2) metode equivalent form, yaitu diberikan dua tes paralel pada kelompok yang sama dan waktu yang sama; tujuannya adalah pengukuran menjadi ekuivalen; (3) metode test-retest dengan equivalen form, yaitu diberikan dua tes paralel pada kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas dan ekuivalensi; (4) metode split-half, yaitu diberikan tes sekali, kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan memakai rumusSpearman-Brown; tujuannya adalah pengukuran konsistensi internal; (5) metode Kuder-Richardson dan koefisien Alfa, yaitu diberikan tes sekali kemudian skor total tes dihitung dengan rumus Kuder-Richardson, tujuannya adalah pengukuran konsistensi internal; (6) metode inter-rater, yaitu diberikan satu set balasan penerima didik untuk diskor/judgement oleh 2 atau lebih rater; tujuannya adalah pengukuran konsistensi rating. Menurut Popham (1995: 22), reliabilitas terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu konsistensi hasil di antara kesempatan testing yang berbeda, (2) format bergantian (alternate form), yaitu konsistensi hasil di antara dua atau lebih tes yang berbeda, (3) internal konsistensi, yaitu konsistensi melalui suatu pengukuran fungsi butir instrumen.
Reliabilitas skor tes dalam teori respon butir adalah penggunaan fungsi informasi tes. Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi informasi tes lebih akurat bila dibandingkan dengan penggunaan reliabilitas karena: (1) bentuknya tergantung hanya pada butir-butir dalam tes, (2) mempunyai estimasi kesalahan pengukuran pada setiap level abilitas. Pernyataan ini didukung oleh Gustafson (1981 : 41), yaitu bahwa konsep reliabilitas dalam model Rasch memerankan bab subordinate alasannya model pengukuran ini diorientasikan pada estimasi kemampuan individu.
Untuk meningkatkan validitas dan reliabilitas tes perlu dilakukan analisis butir soal. Kegunaan analisis butir soal di antaranya adalah: (1) sanggup membantu para pengguna tes dalam penilaian atas tes yang diterbitkan, (2) sangat relevan bagi penyusunan tes informal dan lokal menyerupai kuis, ulangan yang disiapkan guru untuk penerima didik di kelas, (3) mendukung penulisan butir soal yang efektif, (4) secara materi sanggup memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi dan Urbina, 1997: 172).
Referensi:
Anastasi. Anne and Urbina, Susana. (1997). Psicoholological Testing. (Seventh Edition). New Jersey: Prentice-Hall, Inc.
Linn, Robert L. and Gronlund, Norman E. (1995). Measurement and Assessment in Teaching. (Seventh Edition). Ohio: Prentice-Hall, Inc.
Nitko, Anthony J. (1996). Educational Assessment of Students, Second Edition. Ohio: Merrill an imprint of Prentice Hall Englewood Cliffs.
Cohen, Louis. (1976). Educational Research in Classrooms and Schools: A Manual of Materials and Methods. London: Harper & Row Publishers.
Hambleton, Ronald K. and Swaminathan, Hariharan. (1985). Item Response Theory, Principles, and Aplications. Boston: Kluwer. Nijhoff Publishing.
Messick, Samuel. (1993). “Validity”, Educational Measurement, Third Edition, ed. Robert L. Linn. New York: American Council on Education and Macmillan Publishing Company, A Division of Macmillan, Inc.
Oosterhof, Alberth C (1990). Classroom Applications of Educational Measurement. Ohio Merril Publishing Company.
Ebel, Robert L. and Frisbie, David A. (1991). Essentials of Education Measurement. New Jersey: Prentice Hall.
0 Komentar untuk "Pedoman Menyusun Soal Yang Bermutu"