IMPLEMENTASI EKSTRAKSI FITUR PADA PENGOLAHAN DOKUMEN BERBAHASA INDONESIA
Abstract
Ekstraksi fitur merupakan proses untuk mencari nilai-nilai fitur yang terkandung dalam dokumen untuk proses text mining. Ekstraksi fitur menjadi bagian yang sangat penting dalam pengolahan dokumen pada mesin pencari karena sangat menentukan keberhasilan proses text mining. Salah satu metode ekstraksi fitur yang banyak digunakan dan populer adalah TF-IDF. Pada penelitian ini, metode TF-IDF telah diimplementasikan dengan membuat aplikasi menggunakan perangkat lunak Matlab. Dokumen untuk aplikasi diperoleh melalui media digital Detikcom dan disimpan dalam bentuk file teks. Proses pengolahan dokumen melibatkan case folding, tokenization, filtering, stemming dan ekstraksi fitur. Hasil ekstraksi fitur berupa matriks yang berisi urutan kata-kata unik dari seluruh dokumen dan nilai-nilai fitur TF-IDF dari setiap kata pada seluruh dokumen