Tahapan
Proximity Indexing


Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
1. Membaca atau me-load data XML
2. Melakukan Tokenisasi
3. Melakukan Stopword Removal
4. Melakukan Number Removal
5. Melakukan Stemming
6. Melakukan Proximity Indexing



Tokenisasi

Selanjutnya akan dilakukan proses tokenisasi pada judul dan isi berita. Tokenisasi yaitu proses memecah dokumen menjadi serangkaian token atau unit – unit yang lebih kecil. Proses Tokenisasi ini juga telah mencangkup case folding (mengubah setiap teks menjadi huruf kecil ) dan remove punctuation (menghilangkan tanda baca seperti titik, koma, garis penghubung, titik koma, dsb). Berikut ini adalah hasil dari proses tokenisasi.


{% if tokenize %} {{ tokenize }} {% else %}

Not Found

{% endif %}

Stopword Removal

Token yang diperoleh dari proses tokenisasi akan difilter, yaitu dengan menghapus stopword. Daftar stopword yang digunakan adalah daftar stopword kata bahasa Indonesia. Berikut ini adalah hasil dari proses Stopwords Removal.


{% if stopword_removal %} {{ stopword_removal }} {% else %}

Not Found

{% endif %}

Number Removal

Hasil dari proses Stopword Removal akan difilter kembali, yaitu dengan menghilangkan karakter angka. Tahap ini merupakan tahapan yang umum dilakukan untuk analisis sentimen karena angka tidak mengandung informasi yang sentimen. Berikut ini adalah hasil dari proses Number Removal.


{% if number_removal %} {{ number_removal }} {% else %}

Not Found

{% endif %}

Stemming

Hasil dari proses Number Removal akan diubah dari kata yang berimbuhan ke dalam bentuk dasarnya. Dalam proses Stemming, setiap imbuhan kata akan dihilangkan seperti awalan kata (prefixes), sisipan kata (infixes), akhiran kata (suffixes) dan awalan dan akhiran kata pada kata turunan (confixes). Stemming dilakukan dengan bantuan library Sastrawi. Berikut ini adalah hasil dari proses Stemming.


{% if stemming %} {{ stemming }} {% else %}

Not Found

{% endif %}

Proximity Indexing

Tahap akhirnya adalah proses indexing menggunakan metode Proximity Indexing. Metode Proximity Indexing mempresentasikan term (kata yang telah melakukan pra-pemrosesan mulai tokenisasi hingga stemming) sebagai vektor, dimana akan dihasilkan ID dokumen dalam bentuk index untuk masing-masing term beserta posisi term dalam dokumen tersebut. Hasil dari Proximity Indexing adalah sebagai berikut.


{% if indexing %} {{ indexing }} {% else %}

Not Found

{% endif %}