Penerapan Algoritma Hybrid Sampling SMOTE-TomekLink dan Random Forest untuk Klasifikasi Penyakit Diabetes

Authors

  • Farda Milanda Amin Universitas Bumigora, Mataram, Indonesia
  • Qalbi Ala Dinika Universitas Bumigora, Mataram, Indonesia

DOI:

https://doi.org/10.30812/corisindo.v1.5247

Keywords:

Data Tidak Seimbang, Oversampling, Undersampling, Random Forest

Abstract

Ketidakseimbangan data pada dataset sering kali menjadi kendala dalam meningkatkan akurasi klasifikasi pada data medis, termasuk penyakit diabetes. Penelitian ini bertujuan untuk mengatasi permasalahan tersebut dengan menerapkan algoritma hybrid sampling, yaitu kombinasi metode SMOTE (Synthetic Minority Over-sampling Technique) dan TomekLink, serta memanfaatkan algoritma Random Forest sebagai model klasifikasi. Dataset yang digunakan berasal dari Kaggle, berisi 768 data pasien dengan ketidakseimbangan antara kelas negatif dan positif. Metode SMOTE digunakan untuk menyeimbangkan kelas minoritas, sedangkan TomekLink membantu mengurangi data noise dari kelas mayoritas. Hasil evaluasi menunjukkan bahwa kinerja model Random Forest meningkat secara signifikan setelah diterapkan metode Smote-TomekLink, dengan akurasi mencapai 86,4%, sensitivitas 88,2%, dan spesifisitas 81%. Peningkatan ini membuktikan bahwa kombinasi teknik sampling tersebut efektif dalam menangani masalah data tidak seimbang dan meningkatkan performa klasifikasi pada diagnosis penyakit diabetes.

References

[1] R. P. Kurniadi, R. R. Saedudin, and V. P. Widartha, “Perbandingan Akurasi Algoritma K-Nearest Neighbor Dan Logistic Regression Untk Klasifikasi Penyakit Diabetes,” in e-Proceeding of Engineering, 2021, pp. 9757–9764.

[2] D. A. Agatsa, R. Rismala, and U. N. Wisesty, “Klasifikasi Pasien Pengidap Diabetes Metode Support Vector Machine,” e-aproceeding of Enginering, vol. 7, no. 1, pp. 2517–2525, 2020.

[3] M. Hassanein et al., Diabetes and Ramadan: Practical guidelines 2021, vol. 185. 2021. doi: 10.1016/j.diabres.2021.109185.

[4] M. Salsabil, N. Lutvi, and A. Eviyanti, “Implementasi Data Mining Dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest Dan Xgboost,” J. Ilm. Komputasi, vol. 23, no. 1, pp. 51–58, 2024, doi: 10.32409/jikstik.23.1.3507.

[5] H. Hairani and D. Priyanto, “A New Approach of Hybrid Sampling SMOTE and ENN to the Accuracy of Machine Learning Methods on Unbalanced Diabetes Disease Data,” Int. J. Adv. Comput. Sci. Appl., vol. 14, no. 8, pp. 585–590, 2023, doi: 10.14569/IJACSA.2023.0140864.

[6] Sutarman, R. Siringoringo, D. Arisandi, E. Kurniawan, and E. B. Nababan, “Model Klasifikasi Dengan Logistic Regression Dan Recursive Feature Elimination Pada Data Tidak Seimbang,” J. Teknol. Inf. dan Ilmu Komput., vol. 11, no. 4, pp. 735–742, 2024, doi: 10.25126/jtiik.1148198.

[7] R. Ridwan, E. H. Hermaliani, and M. Ernawati, “Penerapan: Penerapan Metode SMOTE Untuk Mengatasi Imbalanced Data Pada Klasifikasi Ujaran Kebencian,” Comput. Sci., vol. 4, no. 1, pp. 80–88, 2024, [Online]. Available: https://jurnal.bsi.ac.id/index.php/co-science/article/view/2990

[8] A. Indrawati, “Penerapan Teknik Kombinasi Oversampling Dan Undersampling Untuk Mengatasi Permasalahan Imbalanced Dataset,” JIKO (Jurnal Inform. dan Komputer), vol. 4, no. 1, pp. 38–43, 2021, doi: 10.33387/jiko.v4i1.2561.

[9] A. Anggrawan, H. Hairani, and C. Satria, “Improving SVM Classification Performance on Unbalanced Student Graduation Time Data Using SMOTE,” Int. J. Inf. Educ. Technol., vol. 13, no. 2, pp. 289–295, 2023, doi: 10.18178/ijiet.2023.13.2.1806.

[10] H. Hairani, K. E. Saputro, and S. Fadli, “K-means-SMOTE untuk Menangani Ketidakseimbangan Kelas dalam Kalsifikasi Penyakit Diabetes dengan C4.5, SVM, dan naive Bayes,” J. Teknol. dan Sist. Komput., vol. 8, no. 2, pp. 89–93, 2020, doi: 10.14710/jtsiskom.8.2.2020.89-93.

[11] L. G. R. Putra, K. Marzuki, and H. Hairani, “Correlation-based feature selection and Smote-Tomek Link to improve the performance of machine learning methods on cancer disease prediction,” Eng. Appl. Sci. Res., vol. 50, no. 6, pp. 577–583, 2023, doi: 10.14456/easr.2023.59.

[12] H. Hairani, A. Anggrawan, and D. Priyanto, “Improvement Performance of the Random Forest Method on Unbalanced Diabetes Data Classification Using Smote-Tomek Link,” Int. J. Informatics Vis., vol. 7, no. 1, pp. 258–264, 2023, doi: 10.30630/joiv.7.1.1069.

Downloads

Published

2025-09-19