TY - JOUR AU - Lusiana Efrizoni AU - Sarjon Defit AU - Muhammad Tajuddin AU - Anthony Anggrawan PY - 2022/07/31 Y2 - 2024/03/29 TI - Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning JF - MATRIK : Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer JA - matrik VL - 21 IS - 3 SE - Articles DO - https://doi.org/10.30812/matrik.v21i3.1851 UR - https://journal.universitasbumigora.ac.id/index.php/matrik/article/view/1851 AB - Ektraksi fitur dan algoritma klasifikasi teks merupakan bagian penting dari pekerjaan klasifikasi teks, yang memiliki dampak langsung pada efek klasifikasi teks. Algoritma machine learning tradisional seperti Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression telah berhasil dalam melakukan klasifikasi teks dengan ektraksi fitur i.e. Bag ofWord (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), Documents to Vector (Doc2Vec), Word to Vector (word2Vec). Namun, bagaimana menggunakan vektor kata untuk merepresentasikan teks pada klasifikasi teks menggunakan algoritma machine learning dengan lebih baik selalumenjadi poin yang sulit dalam pekerjaan Natural Language Processing saat ini. Makalah ini bertujuan untuk membandingkan kinerja dari ekstraksi fitur seperti BoW, TF-IDF, Doc2Vec dan Word2Vec dalam melakukan klasifikasi teks dengan menggunakan algoritma machine learning. Dataset yang digunakan sebanyak 1000 sample yang berasal dari tribunnews.com dengan split data 50:50, 70:30, 80:20 dan 90:10. Hasil dari percobaan menunjukkan bahwa algoritma Na¨ıve Bayes memiliki akurasi tertinggi dengan menggunakan ekstraksi fitur TF-IDF sebesar 87% dan BoW sebesar 83%. Untuk ekstraksi fitur Doc2Vec, akurasi tertinggi pada algoritma SVM sebesar 81%. Sedangkan ekstraksi fitur Word2Vec dengan algoritma machine learning (i.e. i.e. Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression) memiliki akurasi model dibawah 50%. Hal ini menyatakan, bahwa Word2Vec kurang optimal digunakan bersama algoritma machine learning, khususnya pada dataset tribunnews.com. ER -