Algoritma Synthetic Minority Oversampling Technique dan C5.0 dalam Mengatasi Ketidakseimbangan Data pada Klasifikasi Kelulusan Siswa
Abstract
Algoritma supervised learning digunakan untuk memprediksi dan mengklasifikasikan atribut tertentu, namun masalah utama adalah distribusi data yang tidak merata antar kelas yang dapat menyebabkan overfitting. Untuk mengatasi ini, diperlukan augmentasi kelas minoritas menggunakan teknik Synthetic Minority Oversampling Technique (SMOTE). Tujuan penelitian ini memberikan solusi praktis untuk mengatasi ketidakseimbangan data dengan SMOTE pada kasus siswa yang tidak lulus semua mata pelajaran, guna mengurangi risiko overfitting. Metode penelitian ini adalah penelitian eksperimental dengan pendekatan kuantitatif menggunakan data sekunder dari kelulusan mata pelajaran siswa. Teknik analisis data hasil SMOTE diuji dengan algoritma C5.0, dan variasi state 1 hingga 100 digunakan untuk memastikan pemilihan data training dan testing secara acak di setiap iterasi. Hasil penelitian menunjukkan bahwa uji data asli dengan algoritma C5.0 menghasilkan plot akurasi, recall, dan spesifisitas yang tidak konsisten, sedangkan uji data yang diolah dengan SMOTE menunjukkan plot yang stabil mendekati 100%. Artinya, data SMOTE memberikan performa yang lebih baik pada algoritma C5.0 dibandingkan data asli. Efektivitas teknik SMOTE dan algoritma C5.0 dapat berkontribusi bagi peneliti yang menghadapi masalah serupa. Implikasi hasil penelitian ini juga dapat dijadikan acuan dalam membuat aplikasi untuk mendeteksi kelulusan siswa guna mempermudah guru dalam mengambil keputusan.
References
Abidin, Z., Nurhana, E., Permata, P., and Ulum, F. (2023). Analisis perbandingan Algoritma Decision
Tree C4.4 dan C5.0 pada data karyawan berpotensi promosi jabatan. Jurnal Teknoinfo, 17(2):567–582.https://doi.org/10.33365/jti.v17i2.2702.
Alex, S. A., Nayahi, J. J. V., and Kaddoura, S. (2024). Deep Convolutional Neural Networks with
genetic Algorithm-Based Synthetic Minority Over-Sampling Technique for improved imbalanced data classification. Applied Soft Computing, 156:111491.https://doi.org/10.1016/j.asoc.2024.111491.
Aprihartha, M. A., Astutik, F., and Sulistianingsih, N. (2024). Comparison of Naïve Bayes, CART,
dan CART Adaboost methods in predicting tire product sales. Jurnal Matematika, Statistika dan
Komputasi, 20(3):596–605. https://doi.org/10.20956/j.v20i3.33187.
Aryanti, R., Misriati, T., and Sagiyanto, A. (2023). Analisis sentimen aplikasi primaku menggunakan
Algoritma Random Forest dan SMOTE untuk mengatasi ketidakseimbangan data. Journal of Computer System and Informatics (JoSYC), 5(1):218–227.https://doi.org/10.47065/josyc.v5i1.4562.
Berry, M. W., Mohamed, A., and Yap, B. W. (2019). Supervised and unsupervised learning for data
science. Springer Nature.
Gamel, S. A., Ghoneim, S. S. M., and Sultan, Y. A. (2024). Improving the accuracy of diagnostic
predictions for power transformers by employing a hybrid approach combining SMOTE and DNN.
Computers and Electrical Engineering, 117:109232. https://doi.org/10.1016/j.compeleceng. 2024.109232.
Kim, Y.-S., Kim, M. K., Fu, N., Liu, J., Wang, J., and Srebric, J. (2024). Investigating the Iimpact of data normalization methods on predicting electricity consumption in a building using different Artificial Neural Network Models. Sustainable Cities and Society, page 105570. https://doi.org/10.1016/j.scs.2024.105570.
Kotb, M. H. and Ming, R. (2021). Comparing SMOTE family techniques in predicting insurance premium defaulting using machine learning models. International Journal of Advanced Computer Science and Applications, 12(9).
Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
Nurkholis, A., Alita, D., Sucipto, A., Chanafy, M., and Amalia, Z. (2021). Hotspot classification
for forest fire prediction using C5. 0 Algorithm. In 2021 International Conference on Intelligent
Cybernetics Technology Applications (ICICyTA), pages 12–16. IEEE. https://doi.org/10.1109/
ICICyTA53712.2021.9689085.
Prasetya, J. (2021). Perbandingan analisis klasifikasi SMOTE Random Forest dan SMOTE K-Nearest Neighbors pada data tidak seimbang. Universitas Gadjah Mada.
Putro, A. and Setiadi, T. (2023). Penerapan Klasifikasi Decision Tree (C4.5) untuk memprediksi kelulusan siswa sekolah dasar di Kecamatan Juai. Jurnal Format, 12(2):151–157.
Rahim, A. M. A., Pratiwi, I. Y. R., and Fikri, M. A. (2023). Klasifikasi penyakit jantung menggunakan
metode Synthetic Minority Over-Sampling Technique dan Random Forest Clasifier. Indonesian Journal of Computer Science, 12(5). https://doi.org/10.33022/ijcs.v12i5.3413.
Sano, A. V. D., Stefanus, A. A., Madyatmadja, E. D., Nindito, H., Purnomo, A., and Sianipar, C. P. M.
(2023). Proposing a visualized comparative review analysis model on tourism domain using Naïve
Bayes classifier. Procedia Computer Science, 227:482–489. https://doi.org/10.1016/j.procs.
2023.10.549.
Vebriyanti, L. M. L., Martha, S., Andani, W., and Rizki, S. W. (2024). Analisis kelayakan kredit menggunakan Classification Tree dengan teknik Random Oversampling. Euler: Jurnal Ilmiah Matematika, Sains dan Teknologi, 12(1):1–8. https://doi.org/10.37905/euler.v12i1.24182.
Wang, F., Zheng, M., Hu, X., Li, H., Wang, T., and Chen, F. (2024). FIAO: Feature Information
Aggregation Oversampling for imbalanced data classification. Applied Soft Computing, 161:111774.
https://doi.org/10.1016/j.asoc.2024.111774.
Widodo, A. O., Setiawan, B., and Indraswari, R. (2024). Machine learning-based intrusion detection on multi-class imbalanced dataset using SMOTE. Procedia Computer Science, 234:578–583. https:
//doi.org/10.1016/j.procs.2024.03.042.
Tree C4.4 dan C5.0 pada data karyawan berpotensi promosi jabatan. Jurnal Teknoinfo, 17(2):567–582.https://doi.org/10.33365/jti.v17i2.2702.
Alex, S. A., Nayahi, J. J. V., and Kaddoura, S. (2024). Deep Convolutional Neural Networks with
genetic Algorithm-Based Synthetic Minority Over-Sampling Technique for improved imbalanced data classification. Applied Soft Computing, 156:111491.https://doi.org/10.1016/j.asoc.2024.111491.
Aprihartha, M. A., Astutik, F., and Sulistianingsih, N. (2024). Comparison of Naïve Bayes, CART,
dan CART Adaboost methods in predicting tire product sales. Jurnal Matematika, Statistika dan
Komputasi, 20(3):596–605. https://doi.org/10.20956/j.v20i3.33187.
Aryanti, R., Misriati, T., and Sagiyanto, A. (2023). Analisis sentimen aplikasi primaku menggunakan
Algoritma Random Forest dan SMOTE untuk mengatasi ketidakseimbangan data. Journal of Computer System and Informatics (JoSYC), 5(1):218–227.https://doi.org/10.47065/josyc.v5i1.4562.
Berry, M. W., Mohamed, A., and Yap, B. W. (2019). Supervised and unsupervised learning for data
science. Springer Nature.
Gamel, S. A., Ghoneim, S. S. M., and Sultan, Y. A. (2024). Improving the accuracy of diagnostic
predictions for power transformers by employing a hybrid approach combining SMOTE and DNN.
Computers and Electrical Engineering, 117:109232. https://doi.org/10.1016/j.compeleceng. 2024.109232.
Kim, Y.-S., Kim, M. K., Fu, N., Liu, J., Wang, J., and Srebric, J. (2024). Investigating the Iimpact of data normalization methods on predicting electricity consumption in a building using different Artificial Neural Network Models. Sustainable Cities and Society, page 105570. https://doi.org/10.1016/j.scs.2024.105570.
Kotb, M. H. and Ming, R. (2021). Comparing SMOTE family techniques in predicting insurance premium defaulting using machine learning models. International Journal of Advanced Computer Science and Applications, 12(9).
Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
Nurkholis, A., Alita, D., Sucipto, A., Chanafy, M., and Amalia, Z. (2021). Hotspot classification
for forest fire prediction using C5. 0 Algorithm. In 2021 International Conference on Intelligent
Cybernetics Technology Applications (ICICyTA), pages 12–16. IEEE. https://doi.org/10.1109/
ICICyTA53712.2021.9689085.
Prasetya, J. (2021). Perbandingan analisis klasifikasi SMOTE Random Forest dan SMOTE K-Nearest Neighbors pada data tidak seimbang. Universitas Gadjah Mada.
Putro, A. and Setiadi, T. (2023). Penerapan Klasifikasi Decision Tree (C4.5) untuk memprediksi kelulusan siswa sekolah dasar di Kecamatan Juai. Jurnal Format, 12(2):151–157.
Rahim, A. M. A., Pratiwi, I. Y. R., and Fikri, M. A. (2023). Klasifikasi penyakit jantung menggunakan
metode Synthetic Minority Over-Sampling Technique dan Random Forest Clasifier. Indonesian Journal of Computer Science, 12(5). https://doi.org/10.33022/ijcs.v12i5.3413.
Sano, A. V. D., Stefanus, A. A., Madyatmadja, E. D., Nindito, H., Purnomo, A., and Sianipar, C. P. M.
(2023). Proposing a visualized comparative review analysis model on tourism domain using Naïve
Bayes classifier. Procedia Computer Science, 227:482–489. https://doi.org/10.1016/j.procs.
2023.10.549.
Vebriyanti, L. M. L., Martha, S., Andani, W., and Rizki, S. W. (2024). Analisis kelayakan kredit menggunakan Classification Tree dengan teknik Random Oversampling. Euler: Jurnal Ilmiah Matematika, Sains dan Teknologi, 12(1):1–8. https://doi.org/10.37905/euler.v12i1.24182.
Wang, F., Zheng, M., Hu, X., Li, H., Wang, T., and Chen, F. (2024). FIAO: Feature Information
Aggregation Oversampling for imbalanced data classification. Applied Soft Computing, 161:111774.
https://doi.org/10.1016/j.asoc.2024.111774.
Widodo, A. O., Setiawan, B., and Indraswari, R. (2024). Machine learning-based intrusion detection on multi-class imbalanced dataset using SMOTE. Procedia Computer Science, 234:578–583. https:
//doi.org/10.1016/j.procs.2024.03.042.
Published
2024-07-26
Section
New Submission