Tahapan
Pencarian Kueri


Tahapan Pencarian kueri adalah proses untuk mengolah kata pencarian yang di-input oleh user yang kemudian diproses oleh sistem untuk mengembalikan dokumen yang relevan berdasarkan score tertinggi melalui perhitungan TF-IDF.
Adapun tahapan yang dilakukan untuk mengembalikan dokumen yang relevan berdasarkan pencarian kueri, yaitu:
1. Melakukan Preprocessing Kueri
2. Melakukan Perhitungan Term Frequency (TF)
3. Melakukan Perhitungan Document Frequency (DF)
4. Melakukan Perhitungan Inverse Document Frequency (IDF)
5. Melakukan Perhitungan TF-IDF
6. Melakukan Perankingan Score


Preprocessing Kueri

Tahapan preprocessing merupakan tahapan yang dilakukan pada kueri untuk mengubah bentuk kueri ke bentuk lain sehingga kueri tersebut dapat dikenali dan diproses oleh sistem. Adapun tahapan yang dilakukan pada tahapan preprocessing adalah case folding, remove punctuation, number removal, tokenisasi, stop word removal dan stemming. Berikut adalah hasil preprocessing dari kueri yang dimasukkan.


Kueri Anda => {{ query }}


Hasil Preprocessing Kueri => {% for i in proximitys.process %} {{ i.terms }} {% endfor %}


Perhitungan Term Frequency (TF)

Selanjutnya akan dilakukan proses perhitungan TF. Perhitungan nilai Term Frequency (TF) yaitu perhitungan yang memandang sebuah dokumen sebagai sebuah bag of words yang mengutamakan jumlah kemunculan dari setiap kata. Berikut merupakan hasil dari perhitungan TF dari kueri pencarian.

Hasil Preprocessing Kueri => {% for i in proximitys.process %} {{ i.terms }} {% endfor %}

Term Frequency => {% for i in proximitys.process %} {{ i.termFrequency }} {% endfor %}


Perhitungan Document Frequency (DF)

Document Frequency (DF) adalah jumlah dari dokumen di dalamnya terdapat term yang sedang diinvestigasi. Jika sebuah dokumen terdapat term yang sedang diinvestigasi maka dokumen tersebut akan bernilai 1. Begitu selanjutnya dilakukan pemeriksaan terhadap seluruh dokumen sehingga diperoleh total dokumen yang mengandung term tersebut. Berikut merupakan hasil dari perhitungan DF dari kueri pencarian.

Hasil Preprocessing Kueri => {% for i in proximitys.process %} {{ i.terms }} {% endfor %}

Document Frequency => {% for i in proximitys.process %} {{ i.docFrequency }} {% endfor %}


Perhitungan IDF

Persamaan Inverse Document Frequency dibuat untuk mengurangi efek dari term yang frekuensinya terlalu tinggi dalam sebuah dokumen. Proses ini dapat diperoleh dengan menghitung nilai logaritma dari total dokumen dibagi dengan DF dari term yang sedang diinvestigasi. Persamaan tersebut dapat dituliskan dengan IDF(i) = log (N/DF(i)). Berikut merupakan hasil dari perhitungan IDF dari kueri pencarian.

Hasil Preprocessing Kueri => {% for i in proximitys.process %} {{ i.terms }} {% endfor %}

Inverse Document Frequency => {% for i in proximitys.process %} {{ i.invDocFrequency }} {% endfor %}


Perhitungan TF-IDF

Dengan memperoleh nilai dari masing-masing TF, DF dan IDF, maka untuk menghitung nilai dari TF-IDF untuk kasus dengan menggunakan word t dalam document d dapat dihitung dengan persamaan W(t,d) = TF(t,d) X IDF(t). Berikut merupakan hasil dari perhitungan TF-IDF dari kueri pencarian dengan mengembalikan nomor setiap dokumen.

Hasil Preprocessing Kueri => {% for i in proximitys.process %} {{ i.terms }} {% endfor %}

TF-IDF => {% for i in proximitys.process %} {{ i.TFIDF }} {% endfor %}


Perankingan Score

Setelah dilakukan perhitungan TF-IDF, kemudian dilakukan perangkingan berdasarkan score tertinggi dari setiap nilai TF-IDF.


{% for i in proximitys.result %} {{forloop.counter}}. Judul : {{ i.doc_title }}
    No dokumen: {{ i.doc_id }}
    Score : {{ i.doc_score }}


{% endfor %}