Tahapan
Proximity Indexing
Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen
beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau
lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama
adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
1. Membaca atau me-load data XML
2. Melakukan Tokenisasi
3. Melakukan Stopword Removal
4. Melakukan Number Removal
5. Melakukan Stemming
6. Melakukan Proximity Indexing