Perlukah Memperhatikan AI Score dalam Menilai Sebuah Artikel Ilmiah?

Perlukah Memperhatikan AI Score dalam Menilai Sebuah Artikel Ilmiah?

Pemanfaatan kecerdasan buatan (AI) telah mengalami perkembangan yang signifikan dalam dunia akademik, khususnya dalam penilaian artikel ilmiah. AI score atau sistem penilaian berbasis kecerdasan buatan merupakan inovasi yang dirancang untuk memberikan penilaian objektif dan konsisten terhadap berbagai aspek tulisan akademik. Hal ini sejalan dengan premis bahwa AI diciptakan untuk memenuhi kebutuhan manusia dalam menghasilkan tulisan dan penelitian dengan meminimalisir kesalahan manusia (human error), baik dalam referensi maupun tata cara penulisan. Melalui kemampuan memproses pola bahasa manusia, AI telah mencapai kemampuan analisis tekstual yang mumpuni. Namun, pertanyaan kritis yang muncul adalah sejauh mana kita perlu memperhatikan AI score dalam proses evaluasi artikel ilmiah dan bagaimana hal ini dapat memengaruhi kualitas publikasi ilmiah secara keseluruhan.

Konsep dan Implementasi AI Score dalam Penilaian Artikel Ilmiah

AI score dalam konteks penilaian artikel ilmiah merujuk pada sistem berbasis kecerdasan buatan yang dirancang untuk mengevaluasi berbagai dimensi kualitas tulisan. Automated Essay Scoring (AES) merupakan salah satu bentuk AI score yang berfungsi memberikan nilai pada esai berdasarkan kriteria tertentu, umumnya dalam konteks penilaian kemampuan bahasa seseorang. Kualitas esai dipengaruhi oleh empat dimensi utama: relevansi topik, organisasi dan koherensi, penggunaan kata dan kompleksitas kalimat, serta tata bahasa dan mekanika penulisan1.

SciScore merupakan contoh implementasi AI score yang khusus diciptakan untuk mengevaluasi naskah ilmiah. Sistem ini menilai kepatuhan manuskrip terhadap rekomendasi dari lembaga pemberi dana dan jurnal yang bertujuan meningkatkan transparansi dalam literatur ilmiah. Hasil implementasi SciScore pada beberapa penerbit menunjukkan peningkatan skor rata-rata dari waktu ke waktu, mengindikasikan bahwa penggunaan alat ini berhasil meningkatkan kualitas pelaporan rigor dan transparansi artikel ilmiah11.

Sistem AI scoring lainnya adalah Rigor and Transparency Index (RTI) yang secara otomatis mengevaluasi ketelitian dan transparansi jurnal, institusi, dan negara menggunakan manuskrip yang dinilai berdasarkan kriteria dalam pedoman reprodusibilitas. RTI melacak 27 tipe entitas menggunakan teknik pemrosesan bahasa alami. Antara tahun 1997 dan 2020, indikator ketelitian dan transparansi menunjukkan peningkatan umum (RTI 2,29 menjadi 4,13), yang mengindikasikan bahwa penulis semakin serius dalam meningkatkan kualitas pelaporan ilmiah12.

Manfaat AI Score dalam Penilaian Artikel Ilmiah

Penggunaan AI score dalam menilai artikel ilmiah menawarkan sejumlah keuntungan signifikan. Pertama, AI memiliki kemampuan untuk memproses dan menganalisis data dalam jumlah besar dengan cepat dan konsisten. Penelitian menunjukkan bahwa integrasi AI dalam penulisan ilmiah tidak hanya meningkatkan efisiensi tetapi juga dapat meningkatkan kualitas dan akurasi artikel ilmiah. AI mampu memberikan saran yang relevan berdasarkan data yang ada, mengidentifikasi kesalahan tata bahasa dan penulisan, serta membantu dalam menemukan referensi yang tepat9.

Kedua, AI score dapat memberikan penilaian yang lebih objektif dan konsisten. Studi menunjukkan bahwa sistem penilaian otomatis dapat menghasilkan skor yang identik dengan peer reviewer manusia hingga 72% dari waktu18. Hal ini penting mengingat fakta bahwa reviewer manusia dapat dipengaruhi oleh bias pribadi, kelelahan, atau faktor subjektif lainnya.

Ketiga, pendekatan multilingual dalam AI scoring telah mencapai tingkat kualitas yang praktis, bahkan dalam konteks penilaian skala besar internasional. Studi menunjukkan bahwa distribusi skor yang diestimasi berdasarkan data yang dinilai AI dan data yang dinilai manusia sangat konsisten satu sama lain2. Ini menunjukkan potensi AI score untuk standardisasi penilaian akademik lintas bahasa dan budaya.

Tantangan dan Keterbatasan AI Score

Meskipun menawarkan banyak manfaat, AI score memiliki sejumlah tantangan dan keterbatasan yang perlu diperhatikan. Salah satu keterbatasan utama adalah kemampuan AI dalam mengevaluasi aspek kreativitas, orisinalitas, dan signifikansi ilmiah dari sebuah artikel. Model bahasa besar (LLM) seperti ChatGPT memang menunjukkan pola penggunaan bahasa yang mirip dengan manusia dalam banyak aspek, namun penelitian menunjukkan bahwa mereka masih memiliki beberapa perbedaan dari manusia dalam penggunaan bahasa8.

Penelitian yang menganalisis kinerja ChatGPT untuk penilaian holistik esai menunjukkan adanya batasan dalam kemampuan model AI untuk menilai aspek-aspek kualitatif tertentu5. Hal ini mengindikasikan bahwa AI mungkin kurang efektif dalam menilai aspek-aspek seperti kebaruan ide, dampak potensial penelitian, atau kesesuaian dengan konteks sosial yang lebih luas.

Tantangan lain adalah potensi bias dalam algoritma AI. Model AI dilatih pada data historis yang mungkin mencerminkan bias yang ada dalam literatur ilmiah sebelumnya. Studi tentang standar pengujian untuk skor AI menekankan pentingnya memeriksa reliabilitas, validitas, dan keadilan dari sistem penilaian otomatis14. Jika tidak dikoreksi, bias ini dapat direproduksi dan bahkan diperkuat oleh sistem AI scoring.

Dengan mempertimbangkan kelebihan dan keterbatasan AI score, pendekatan kolaboratif antara AI dan reviewer manusia tampaknya paling tepat dalam menilai artikel ilmiah. Studi kasus menunjukkan bahwa skor AI untuk area paru-paru yang terkena dampak COVID-19 dan skor Brixia dari radiologis manusia memiliki kinerja diskriminasi yang serupa dan baik, yang menunjukkan bahwa dalam beberapa kasus, AI score dapat berkinerja setara dengan penilaian manusia16.

Pendekatan hybrid yang menggabungkan jaringan neural dan fitur linguistik yang kaya telah terbukti meningkatkan kinerja model penilaian otomatis. Penelitian tentang penilaian esai otomatis menggunakan varietas tata bahasa dan deteksi kesalahan menunjukkan bahwa fitur tata bahasa dapat meningkatkan kinerja model AES yang memprediksi skor holistik esai19. Hal ini mengindikasikan bahwa pendekatan yang lebih komprehensif dan multidimensi dalam pengembangan AI score dapat meningkatkan akurasinya.

Integrasi AI dalam penelitian akademik mencakup enam domain utama: pengembangan ide, strukturisasi konten, sintesis literatur, manajemen data, proses pengeditan, dan kepatuhan etis. AI menawarkan bantuan penulisan, peningkatan tata bahasa, optimalisasi struktur, dukungan pengeditan, dan bantuan dalam kepatuhan etis7. Dengan memanfaatkan AI dalam domain-domain ini secara strategis, peneliti dapat meningkatkan kualitas dan efisiensi karya ilmiah mereka tanpa mengorbankan integritas akademis.

Implikasi Etis dan Rekomendasi Praktis

Penggunaan AI score dalam penilaian artikel ilmiah memiliki implikasi etis yang perlu diperhatikan. Transparansi dan penggunaan etis AI sangat penting. Peneliti berkewajiban untuk menggunakan alat AI secara bertanggung jawab untuk mempertahankan keaslian dan kreativitas karya mereka, sambil menghindari penggunaan tidak tepat yang dapat membahayakan kredibilitas akademik10.

Untuk implementasi praktis, beberapa rekomendasi dapat dipertimbangkan:

  1. Menggunakan AI score sebagai alat pendukung, bukan pengganti penilaian manusia, terutama untuk aspek-aspek yang memerlukan penilaian kualitatif.
  2. Mengembangkan standar dan metodologi yang jelas untuk menguji reliabilitas, validitas, dan keadilan sistem penilaian berbasis AI14.
  3. Meningkatkan transparansi tentang penggunaan AI dalam proses penilaian akademik, termasuk memberikan informasi kepada penulis tentang komponen penilaian yang dilakukan oleh AI.
  4. Mendorong penelitian lebih lanjut tentang peningkatan kemampuan AI dalam menilai aspek-aspek kualitatif dari tulisan ilmiah, seperti orisinalitas dan signifikansi.
  5. Mempertimbangkan penggunaan pendekatan hybrid yang menggabungkan fitur-fitur linguistik yang kaya dengan model neural untuk meningkatkan kinerja sistem penilaian otomatis19.

Kesimpulan

AI score menawarkan alat yang berharga untuk menilai artikel ilmiah, khususnya dalam hal efisiensi, konsistensi, dan kemampuan mendeteksi kesesuaian dengan standar pelaporan. Namun, keterbatasannya dalam menilai aspek-aspek kualitatif seperti kreativitas dan signifikansi ilmiah mengindikasikan bahwa AI score sebaiknya tidak digunakan sebagai satu-satunya metode penilaian.

Pertanyaan “perlukah memperhatikan AI score dalam menilai sebuah artikel ilmiah?” dapat dijawab dengan afirmatif, namun dengan sejumlah kualifikasi. AI score perlu diperhatikan sebagai komponen dalam proses penilaian yang lebih komprehensif, yang juga mencakup penilaian manusia untuk aspek-aspek yang memerlukan evaluasi kualitatif mendalam. Pendekatan yang seimbang dan kolaboratif antara AI dan manusia berpotensi menghasilkan penilaian yang lebih akurat, konsisten, dan komprehensif, yang pada akhirnya dapat meningkatkan kualitas dan dampak dari literatur ilmiah.

Penting untuk diingat bahwa meskipun AI dikembangkan berdasarkan pola bahasa manusia dan bertujuan untuk meminimalisir kesalahan manusia, AI tetap merupakan alat yang harus digunakan dengan bijak dan kritis. Integrasi AI score dalam penilaian artikel ilmiah hendaknya dipandang sebagai evolusi dalam proses penilaian akademik, bukan sebagai revolusi yang sepenuhnya menggantikan peran manusia.

Referensi

Cai, Z., Duan, X., Haslett, D., Wang, S., & Pickering, M. (2024). Do large language models resemble humans in language use? Proceedings of the Workshop on Cognitive Modeling and Computational Linguistics, 37–56. https://doi.org/10.18653/v1/2024.cmcl-1.4

Doi, K., Sudoh, K., & Nakamura, S. (2024). Automated essay scoring using grammatical variety and errors with multi-task learning and item response theory. Proceedings of the 19th Workshop on Innovative Use of NLP for Building Educational Applications. https://aclanthology.org/2024.bea-1.26.pdf

Hidayatulloh, I. A. (2021). Improving automatic essay scoring for Indonesian language using simpler model and richer feature. Kinetik: Game Technology, Information System, Computer Network, Computing, Electronics, and Control, 6(1), 11–18. https://doi.org/10.22219/kinetik.v6i1.1196

Mahata, D. (2023). AI scoring for international large-scale assessments using a deep learning model and multilingual data. OECD Education Working Papers. https://doi.org/10.1787/9918e1fb-en

Rajagede, R. A. (2024). Integration and contribution of artificial intelligence in writing scientific papers. Jurnal Mandiri IT, 13(1), 196–203. https://doi.org/10.35335/mandiri.v13i1.315

Rianto, J. (2024). Research in contemporary society: The role of artificial intelligence in academic research writing. Qurantic Review on Business and Social Science, 2(1). https://doi.org/10.31316/qrobss.v2i1.7166

Walhout, J., Castineira, M. I., Carpinelli, L., Ruipérez-Valiente, J. A., & Joling-van Rijn, E. (2022). Establishing institutional scores with the rigor and transparency index. Journal of Medical Internet Research, 24(6), e37324. https://doi.org/10.2196/37324

Willian, B. (2024). AI scorers: Evaluating AI-generated text with ROUGE. Wandb. https://wandb.ai/byyoung3/Generative-AI/reports/AI-scorers-Evaluating-AI-generated-text-with-ROUGE–VmlldzoxMDc0Mzc5OA

Zimmer, K. (2022). AI system not yet ready to help peer reviewers assess research quality. Nature. https://www.nature.com/articles/d41586-022-04493-8

Comments

No comments yet. Why don’t you start the discussion?

Tinggalkan Balasan