Sebelum membicarakan lebih jauh tentang penilaian, kita akan membahas tiga istilah yang sering membingungkan dalam kehidupan sehari-hari, yaitu pengajaran, evaluasi, penilaian dan pengetesan. Penilaian adalah proses pengumpulan informasi untuk menentukan sejauh mana tujuan pembelajaran yang telah ditetapkan tercapai. Informasi itu dapat berupa pendapat guru, orang tua, kualitas buku, hasil penilaian, dan sikap siswa. Alat evaluasi dapat berupa tes, kuesioner, wawancara, dan observasi. Penilaian merupakan semua metode yang digunakan untuk mengumpulkan informasi mengenai pengetahuan, kemampuan, pemahaman, sikap, dan motivasi siswa yang di antaranya dapat dilakukan melalui tes, penilaian diri, baik secara formal maupun informal. Pengetesan merupakan salah satu prosedur yang dapat digunakan untuk menilai unjuk kerja siswa. Tes dapat bersifat obyektif atau subyektif. Tes juga merupakan sebuah metode untuk mengukur kemampuan seseorang, pengetahuan atau kinerjanya pada ranah tertentu.
Namun untuk kemudahan, dalam tulisan ini istilah penilaian akan digunakan untuk merujuk baik kepada evaluasi, penilaian, ataupun pengetesan. Penilaian tidak dapat dipisahkan dari kegiatan pengajaran. Jika dalam pengajaran kita memiliki elemen siswa sebagai input, pembelajaran di sekolah dan kelas sebagai proses, dan kompetensi lulusan sebagai hasil, kegiatan penilaian terjadi baik pada awal, proses, maupun pada akhir pembelajaran. Pada awal pembelajaran, penilaian dilakukan untuk menentukan kemampuan awal siswa (diagnostic) atau penempatan (placement) siswa pada kelompok belajar tertentu. Pada saat pembelajaran berlangsung, kegiatan penilaian dilakukan untuk mengukur ketercapaian tujuan pembelajaran yang telah ditetapkan dan hasilnya digunakan sebagai feedback atas kegiatan pembelajaran yang dilakukan (formative). Setelah kegiatan pembelajaran pada periode tertentu selesai dilakukan, misalnya pada akhir semester atau pada akhir jenjang pendidikan tertentu (SD, SMP, SMA), penilaian dilakukan untuk mengukur ketercapaian keseluruhan tujuan kurikulum yang telah ditetapkan pada jenjang pendidikan tertentu (summative) dan hasilnya digunakan sebagai laporan kepada siswa tentang hasil belajarnya, kepada guru, orang tua siswa, masyarakat dan pemerintah sebagai wujud akuntabilitas penyelenggaraan pendidikan. Hubungan antara pembelajaran, evaluasi, penilaian dan pengetesan dapat digambarkan sebagai berikut (After Brown, 2004:5)
Ada beberapa prinsip penilaian yang penting untuk diketahui, yaitu kepraktisan (practicality), keterandalan (reliability), validitas (validity), dan keotentikan (authenticity). Sebuah tes dikatakan praktis apabila tes itu biaya penyelenggaraannya tidak terlalu mahal, tidak menyita waktu terlalu lama, mudah dilaksanakan, dan penyekorannya tidak membutuhkan waktu yang terlalu lama. Tes wawancara untuk yang membutuhkan waktu antara 30-60 menit tentu tidak praktis kalau yang akan dites berjumlah ratusan orang sementara pewawancara hanya 5 orang. Tes yang menggunakan LJK tentu tidak praktis jika penyelenggara tes yang harus memerikasa lembar jawaban itu tak memiliki scanner dan komputernya. Tes menulis yang berlangsung dua jam tentu tidak praktis jika yang ingin kita ketahui hanyalah kemampuan siswa menulis kalimat utama saja (topic sentence). Tes UAN menjadi terkesan tidak praktis karena dalam pelaksanaannya mesti melibatkan tim independen, polisi, dan pengawas dari luar sekolah yang bersangkutan. Tes esei untuk mengetes ratusan orang sementara waktu yang dimiliki guru terbatas, tentu tidak praktis karena pemeriksaanya lama dan subyektif. UAN dengan melibatkan aspek listening akan sangat tidak praktis jika sekolah tak memiliki sistem audio yang baik atau saat tes listrik PLN mati sepanjang hari sementara sistem back up semerti Aki tak tersedia dan tape recorder jumlahnya tak mencukupi.
Yang dimaksud
dengan reliable adalah konsisten dan
dapat diandalkan. Jika anda memberi tes yang sama pada siswa yang sama atau
mengorelasikan dua buah perangkat tes yang paralel, dan hasilnya relatif sama,
tes itu dikatakan terandal. Reliabilitas dapat mencakupi reliabilitas
antarpenilai dan reliabilitas pelaksanaan. Reliabilitas antarpenilai akan
terjadi apabila hasil penilaian yang dilakukan oleh beberapa penilai relatif sama.
Misalnya, jika kita memberi skor esei seorang siswa 70, sedangkan sejawat kita
memberi skor 72, kedua penilai itu dapat dikatakan memberikan hasil penilaian
yang reliable. Reliabilitas dalam pelaksanaan penilaian terjadi apabila
instrumen tes yang digunakan dalam situasi apapun hasilnya relatif sama.
Reliabilitas dalam pelaksanaan ini dapat terganggu oleh adanya kegaduhan,
variasi hasil foto kopi, pencahayaan, dan faktor-faktor sejenis lainnya.
Pengukuran reliabilitas
dapat dilakukan dengan beberapa cara. Yang pertama menggunakan teknik belah dua
(split-half method), tes paralel, dan
pengetesan ulang. Dalam teknik belah dua kita memiliki satu set alat tes,
misalnya berisi 50 butir soal pilihan ganda. Kita pisahkan butir genap dan
butir ganjil, kemudian keduanya dianggap sebagai dua perangkat tes yang pararel
dan kita korelasikan kedua belahan itu menggunakan Pearson Product Moment. Bila korelasinya signifikan, tes itu
reliable. Teknik tes pararel dilakukan bila kita mempunyai dua set soal yang
bertujuan mengukur hasil belajar yang sama. Setelah diujicobakan, skor kedua
set soal itu dikorelasikan dan bila hasilnya signifikan, kedua set soal itu
reliable. Teknik terakhir dilakukan bila kita hanya mempunyai satu set soal
yang diujicobakan sebanyak dua kali kepada dua kelompok yang tingkat
kemampuannya dianggap sama. Bila hasil korelasinya signifikan, tes itu
reliable.
Ada beberapa cara
untuk meningkatkan reliabilitas soal. Pertama, kita harus membuat soal yang
mampu membedakan siswa yang kurang pandai dan yang pandai. Artinya, kita harus
membuat soal yang kemungkinan bisa dijawab dengan benar oleh siswa pandai,
tetapi tidak oleh siswa yang kurang pandai. Cara kedua adalah dengan tidak
terlalu banyak memberi kebebasan kepada peserta tes. Dalam tes writing, misalnya, bila kita memberikan
3 judul dan siswa memilih satu judul yang harus dikembangkan, kemungkinan besar
hasil tes tidak reliable karena tulisan yang dihasilkan siswa sangat beragam
sehingga penyekorannya sulit untuk konsisten. Cara ketiga adalah dengan memberi
perintah yang jelas dan mudah difahami peserta tes. Tidak boleh terjadi peserta
tes menjawab salah karena perintahnya tidak jelas. Cara keempat adalah dengan
memastikan soal yang diberikan dapat dibaca dengan baik oleh peserta tes.
Cetakan atau ilustrasi yang kurang jelas harus dihindari. Cara kelima adalah
dengan membuat peserta tes mengenal format dan teknis tes. Misalnya, jika tes
menggunakan jawaban komputer, peserta tes harus mengetahui bagaimana cara
menghitamkan dan membetulkan kesalahan yang terjadi. Bila tes disampaikan
melalui Internet seperti Internet Based TOEFL, peserta tes harus diberi
pemanasan dulu agar mengenal format tes yang diberikan. Cara lainnya adalah
dengan memberi suasana tes yang nyaman dan tak mengganggu konsentrasi, membuat
soal yang sebisa mungkin obyektif, memberi kunci jawaban yang rinci bagi para
penilai terutama untuk menilai writing
dan speaking selain melatih terlebih
dahulu para penilai tersebut.
Validitas adalah
sejauh mana kesimpulan yang kita peroleh dari tes yang kita lakukan tepat dan
bermakna sesuai dengan tujuan penilaian yang diinginkan. Dengan kata lain tes
yang dibuat harus mampu mengukur aspek yang ingin diukur. Jika kita ingin
mengukur keterampilan berbicara, tes yang kita kembangkan harus mampu mengukur
kemampuan berbicara, bukan keterampilan menulis. Contohnya, tes speaking yang
meminta siswa memilih jawaban yang benar dari pertanyaan, “How do you do!”
dengan pilihan: a) How do you do, b) Very well, thanks, dan c) Nice to meet you
akan kurang valid dibanding dengan tes wawancara dimana pewawancara belum
mengenali peserta wawancara dan berinisiatif memperkenalkan diri dengan
ungkapan “Hi, my name’s is John, What’s your name?” Bila siswa dapat menjawab,
“Hi, Tony. My name is Tony”. Pewawancara lalu meneruskan, “How do you do!” dan
menunggu respon yang akan muncul dari peserta tes.
Ada beberapa jenis validitas yang sering
dibicarakan dalam teori penilaian. Yang pertama adalah validitas isi. Sebuah
tes dikatakan memiliki validitas isi bila isi tes disusun oleh butir-butir tes
yang merepresentasikan kompetensi atau keterampilan berbahasa. Dalam kurikulum
pembelajaran bahasa Inggris di sekolah menengah, model kompetensi berbahasa
yang diadopsi adalah model yang dikembangkan oleh Celce-Murcia dan kawan-kawan (1995:27). yang terdiri dari lima komponen, yaitu kompetensi sosiokultural (disebut juga kompetensi
sosiolinguistik), kompetensi wacana, kompetensi linguistik, kompetensi
aksional, dan kompetensi strategis. Kompetensi
sosiokultural adalah pengetahuan
yang berhubungan dengan konteks yang mempengaruhi apa yang dikatakan dan
bagaimana mengatakannya. Faktor kontekstual mencakupi siapa saja yang terlibat
dalam pembicaraan (usia, status sosial) situasi (topik yang dibicarakan, tempat
pembicaraan dilakukan), sedangkan ketepatan gaya merupakan kesepakatan mengenai
kesantunan (misalnya undak usuk basa
untuk Bahasa Sunda) dan variasi bahasa (bahasa hukum, bahasa teknik, dll).
Sementara faktor budaya mencakupi dialek, pengetahuan lintas budaya, pengetahuan
latar (background knowledge), dan komunikasi non-verbal seperti bahasa tubuh).
Kompetensi aksional adalah pengetahuan yang dibutuhkan untuk
memahami tujuan komunikatif dengan melakukan dan menafsirkan tindak tutur dan
serangkaian tindak tutur. Kompetensi ini berkaitan dengan pengetahuan mengenai
tindak tutur yang dibutuhkan dalam komunikasi interpersonal seperti salam dan
perpisahan, berkenalan, menyampaikan informasi dan mengungkapkan gagasan kepada
orang lain. Kompetensi linguistik
mencakupi leksis, fonologi, morfologi dan
juga sintaksis. Kompetensi strategis merupakan keterampilan dalam
mengatasi masalah komunikasi atau kekurangan dalam kompetensi lain
(Celce-Murcia et.al. 1995:27). Kompetensi wacana (discourse competence)
bagi Celce-Murcia dkk menggabungkan kohesi dan koherensi yang diperlakukan
secara terpisah oleh Bachman dan Palmer. Kompetensi
strategis terdiri dari strategi menghindar seperti menjauhi topik
pembicaraan, strategi pencapaian, dan self
monitoring seperti memperbaharui dan memparafrase. Kedalam kompetensi ini
dimasukan pula strategi interaksional seperti meminta bantuan, menjelaskan dan
mengecek apakah pendengar memahami apa yang telah dikatakan. Model kompetensi
komunikatif itu dapat dilihat dalam diagram di bawah ini.
Validitas yang kedua berkaitan dengan kriteria tertentu yang ditetapkan. Artinya, sebuah tes dikatakan valid jika hasil yang diperoleh sejalan dengan hasil tes yang diperoleh oleh penilaian lain yang independen dan andal. Validitas jenis ini terdiri dari concurrent validity dan predictive validity. Yang pertama terjadi ketika tes yang divalidasi dan tes yang digunakan sebagai kriteria diteskan secara bersamaan dan hasilnya memiliki korelasi yang tinggi. Predictive validity merupakan kemampuan sebuah tes memprediksi kemampuan peserta tes di masa yang akan datang. Tes TOEFL dapat dikatakan mempunyai predictive validity, karena bila seseorang memiliki skor TOEFL rendah, katakan 450, sementara rata-rata universitas di Amerika Serikat menghendaki skor 550, memaksakan untuk sekolah di negeri Paman Sam tersebut dapat dipastikan ia tak akan dapat mengikuti kuliah dengan baik atau bahkan gagal sama sekali. Validitas yang ketiga adalah validitas konstruk (construct validity). Konstruk merupakan teori, hipotesis atau model yang berusaha menjelaskan gejala yang teramati di lingkungan kita seperti kompetensi berbahasa atau motivasi. Jika konstruk kompetensi berbahasa yang diadopsi adalah model Celce-Murcia dkk (1995:27), tes yang disusun dapat dikatakan memiliki validitas konstruk apabila mengetes kompetensi sosiokultural, kompetensi linguistik, kompetensi aksional, kompetensi strategis dan kompetensi wacana.
Validitas yang
keempat adalah validitas perwajahan (face validity). Bila tes yang kita
kembangkan memiliki validitas perwajahan, peserta tes akan melihat tes itu fair, relevan, dan bermanfaat dalam
meningkatkan keterampilan berbahasanya. Dengan kata lain, bagi peserta dan
pelaksana tes, tes itu kelihatan bonafid, berwibawa, mengukur keterampilan yang
diperuntukannya, tidak ada kesalahan ketik, ilustrasi, kasetnya jernih,
kemasannya dan tata letaknya menarik.
Prinsip tes yang
baik keempat adalah keotentikan (authenticity), yaitu tingkat kesejalanan antara ciri-ciri sebuah tes
bahasa dengan fitur-fitur tugas-tugas bahasa yang akan dilakukan dalam bahasa
target. Dengan kata lain, bahan atau tugas yang diteskan harus mencerminkan
kenyataan yang akan dihadapi dalam kondisi nyata di lapangan. Jika dalam
kehidupan sehari-hari kita membaca teks-teks naratif, deskriptif, prosedur,
iklan, pengumuman, surat formal, atau laporan, dalam tes pun jenis-jenis teks
itu sebisa mungkin terwakili. Keotentikan juga mencakupi tingkat kesukaran
tatabahasa, kompleksitas kalimat, serta panjang pendek teks harus seperti apa
adanya tidak dipermudah atau diperpendek. Soal yang diteskan pun harus sejalan
dengan situasi lapangan. Jika dalam kehidupan sehari-hari kita melakukan proses
skimming, scanning, summarising dan concluding, keempatnya harus ditanyakan
di dalam tes. Agar keotentikan meningkat, bahasa yang digunakan harus sealamiah
mungkin, butir soal yang dibuat harus kontekstual, topik yang dipilih harus
menarik bagi siswa, butis soal dikelompokan secara tematis, dan tugas yang
diberikan harus merupakan tugas yang banyak ditemukan dalam dunia nyata.
Selain keempat
prinsip di atas, validitas tes juga mencakupi validitias konsekuensial.
Artinya, dampak tes bagi peserta tes, guru, sekolah, pemerintah dan masyarakat
harus dipertimbangkan. Dampak yang ditimbulkan tes dikenal dengan nama washback (dampak balik), yaitu
dampak tes terhadap pembelajaran, terutama persiapan menjelang tes. Menjamurnya
lembaga bimbingan belajar, les privat, serta buku-buku persiapan UAN, persiapan
SNMPTN, persiapan tes STAN, persiapan tes CPNS, dan sejenisnya merupakan salah
satu fenomena dampak balik. Jika setelah ada sertifikasi guru banyak ditemukan
lembaga yang menjual RPP, sertifikat seminar dan pelatihan dan bahkan produsen ijasah,
itu juga merupakan washback dari sertifikasi guru. Yang harus diingat bukan
berarti dampak balik itu selalu jelek. Kita harus mampu menghasilkan washback
atau dampak balik yang positif. Jika kita melakukan tes formatif dan ditemukan
kelemahan siswa dalam belajar atau kelemahan guru mengajar dan kita berusaha
memperbaikinya, tes yang kita susun telah menghasilkan dampak balik yang
positif. Sebaliknya, jika setelah mengikuti tes siswa malah tidak mengubah gaya
dan target belajarnya dan ketika dites lagi hasilnya tetap tidak lulus, tes
yang kita kembangkan tidak memberikan dampak balik apapun. Jika kita sering
menemukan kursus persiapan TOEFL, Cambridge
First Certificate, GRE, iBT, atau
SAT, kursus itu muncul sebagai dampak balik dari adanya tes-tes tersebut.
Prinsip penilaian
lainnya adalah terpadu, berarti penilaian oleh pendidik merupakan salah satu
komponen yang tak terpisahkan dari kegiatan pembelajaran. Penilaian juga harus
terbuka. Artinya, prosedur penilaian, kriteria penilaian, dan dasar pengambilan
keputusan dapat diketahui oleh pihak yang berkepentingan baik siswa, guru,
pemerintah maupun masyarakat. Penilaian harus menyeluruh dan berkesinambungan, yaitu
bahwa penilaian oleh pendidik mencakupi semua aspek kompetensi dengan
menggunakan berbagai teknik penilaian yang sesuai, untuk memantau perkembangan
kemampuan peserta didik. Penilaian juga harus sistematis, yaitu dilakukan
secara berencana dan bertahap dengan mengikuti langkah-langkah baku. Penilaian
harus beracuan kriteria,yaitu penilaian didasarkan pada ukuran pencapaian
kompetensi yang ditetapkan. Terakhir, penilaian harus akuntabel, yaitu dapat
dipertanggungjawabkan, baik dari segi teknik, prosedur, maupun hasilnya.
Sebelum kegiatan pembelajaran
dimulai, terlebih dahulu kita harus menetapkan tujuan pembelajaran yang ingin dicapai.
Tujuan pembelajaran dapat berupa tujuan instruksional khusus yang ingin dicapai
pada akhir pembelajaran, tujuan instruksional umum yang ingin dicapai pada
akhir unit atau semester, tujuan kurikuler yang ingin dicapai oleh mata
pelajaran yang kita ajarkan, tujuan lembaga seperti perbedaan tujuan kurikulum
SD, SMP, SMA dan universitas, serta tujuan nasional sebagaimana tercantum dalam
UUD ’45, yaitu memajukan kesejahteraan umum, mencerdaskan kehidupan bangsa dan
ikut melaksanakan ketertiban dunia. Dalam kaitan dengan mata pelajaran bahasa
Inggris, tujuan pembelajaran tercermin pada Standar Kompetensi (SK) dan
Kompetensi Dasar (KD) yang ingin dicapai. SK dan KD diperinci menjadi
keterampilan-keterampilan atau perilaku yang dapat diukur yang disebut
indikator. Oleh karena pada akhir pembelajaran siswa harus mampu menguasai sejumlah
pengetahuan, keterampilan, dan sikap sebagaimana diperlihatkan dalam indikator,
saat kita melakukan pengukuran hasil belajar siswa,