1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no" />
<meta name="description" content="" />
<meta name="author" content="" />
<title>Tahapan Proximity Indexing Data Corona</title>
<!-- Font Awesome icons (free version)-->
<script src="https://use.fontawesome.com/releases/v5.13.0/js/all.js" crossorigin="anonymous"></script>
<!-- Google fonts-->
<link href="https://fonts.googleapis.com/css?family=Saira+Extra+Condensed:500,700" rel="stylesheet" type="text/css" />
<link href="https://fonts.googleapis.com/css?family=Muli:400,400i,800,800i" rel="stylesheet" type="text/css" />
<!-- Core theme CSS (includes Bootstrap)-->
<link href="../static/simulator_design/css/styles.css" rel="stylesheet" />
</head>
<body id="page-top">
<!-- Navigation-->
<nav class="navbar navbar-expand-lg navbar-dark bg-primary fixed-top" id="sideNav">
<a class="navbar-brand js-scroll-trigger" href="#page-top">
<span class="d-none d-lg-block"><img class="img-fluid img-profile rounded-circle mx-auto mb-2" src="../static/simulator_design/assets/img/logo_del.jpg" alt="" /></span></a>
<button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation"><span class="navbar-toggler-icon"></span></button>
<div class="collapse navbar-collapse" id="navbarSupportedContent">
<ul class="navbar-nav">
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#introduction">Tahapan Proximity Indexing</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#readXML">Baca Data XML</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#tokenize">Tokenisasi</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stopwordRemoval">Stopword Removal</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#numberRemoval">Number Removal</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stemming">Stemming</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#proximityIndexing">Proximity Indexing</a></li>
<br> <br><li class="nav-item"><a class="nav-link" href="/">Kembali ke Pencarian</a></li>
</ul>
</div>
</nav>
<!-- Page Content-->
<div class="container-fluid p-0">
<!-- Simulator Indexing -->
<section class="resume-section" id="introduction">
<div class="resume-section-content">
<h1 class="mb-0">Tahapan<br><span class="text-primary">Proximity Indexing</span></h1>
<br>
<p class="lead mb-5">
Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen
beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau
lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama
adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
<br>
Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
<br> 1. Membaca atau me-load data XML
<br> 2. Melakukan Tokenisasi
<br> 3. Melakukan Stopword Removal
<br> 4. Melakukan Number Removal
<br> 5. Melakukan Stemming
<br> 6. Melakukan Proximity Indexing
</p>
</div>
</section>
<hr class="m-0" />
<!-- Baca XML -->
<section class="resume-section" id="readXML">
<div class="resume-section-content">
<h2 class="mb-5">Baca Data XML</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Koleksi dokumen diperoleh dengan cara scrapping
pada beberapa situs berita di Indonesia terkait COVID-19, seperti
<a href="https://www.kompas.com/"> Kompas.com</a>,
<a href="https://www.detik.com/">Detik.com<a>,
<a href="https://inipasti.com/">Inipasti.com<a>,
<a href="https://www.cnnindonesia.com/">CNN Indonesia<a>,
<a href="https://www.okezone.com/">Okezone.com<a>,
<a href="https://www.liputan6.com/">Liputan6.com<a>,
<a href="https://www.tribunnews.com/">Tribunnews.com<a>,
<a href="https://www.galamedianews.com/">Galamedia.com<a>,
<a href="https://www.antaranews.com/">Antaranews.com<a>. Berita yang dikumpulkan adalah
berita mengenai COVID-19, Sosial Distancing, PSBB dan Pandemi Corona. Hasil kumpulan
berita akan dimuat dalam file CSV dan kemudian di-convert menjadi file XML. Berikut adalah
hasil pembacaan data XML yang berisi berita Corona.
</p>
<br>
{% if read_xml %}
<p> <b>ID berita =></b><br> <code> {{ read_xml.id_in_news }} </code><br><br>
<b>Media berita => </b><br><code> {{ read_xml.sentence_in_source }} </code> <br><br>
<b>Link berita => </b><br><code> {{ read_xml.sentence_in_link }} </code><br><br>
<b>Judul berita => </b><br><code> {{ read_xml.sentence_in_title }} </code><br><br>
<b>Penulis berita => </b><br><code> {{ read_xml.sentence_in_author }} </code><br><br>
<b>Waktu Publish berita => </b><br><code> {{ read_xml.sentence_in_datetime }} </code><br><br>
<b>Isi berita => </b><br><code> {{ read_xml.sentence_in_news }} </code><br><br>
</p>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Tokenisasi-->
<section class="resume-section" id="tokenize">
<div class="resume-section-content">
<h2 class="mb-5">Tokenisasi</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Selanjutnya akan dilakukan proses tokenisasi pada judul dan isi berita.
Tokenisasi yaitu proses memecah dokumen menjadi serangkaian token atau unit – unit yang lebih kecil.
Proses Tokenisasi ini juga telah mencangkup case folding (mengubah setiap teks menjadi huruf kecil )
dan remove punctuation (menghilangkan tanda baca seperti titik, koma, garis penghubung, titik koma, dsb).
Berikut ini adalah hasil dari proses tokenisasi.
</p>
<br>
{% if tokenize %}
<code> {{ tokenize }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Stopword Removal-->
<section class="resume-section" id="stopwordRemoval">
<div class="resume-section-content">
<h2 class="mb-5">Stopword Removal</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Token yang diperoleh dari proses tokenisasi akan difilter, yaitu dengan menghapus stopword.
Daftar stopword yang digunakan adalah
<a href="https://github.com/masdevid/ID-Stopwords/blob/master/id.stopwords.02.01.2016.txt">daftar stopword
kata bahasa Indonesia</a>. Berikut ini adalah hasil dari proses Stopwords Removal.
</p>
<br>
{% if stopword_removal %}
<code> {{ stopword_removal }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Number Removal-->
<section class="resume-section" id="numberRemoval">
<div class="resume-section-content">
<h2 class="mb-5">Number Removal</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Hasil dari proses Stopword Removal akan difilter kembali, yaitu dengan menghilangkan karakter angka.
Tahap ini merupakan tahapan yang umum dilakukan untuk analisis sentimen karena angka tidak mengandung informasi yang sentimen.
Berikut ini adalah hasil dari proses Number Removal.
</p>
<br>
{% if number_removal %}
<code> {{ number_removal }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Stemming-->
<section class="resume-section" id="stemming">
<div class="resume-section-content">
<h2 class="mb-5">Stemming</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Hasil dari proses Number Removal akan diubah dari kata yang berimbuhan ke dalam bentuk dasarnya.
Dalam proses Stemming, setiap imbuhan kata akan dihilangkan seperti awalan kata (prefixes),
sisipan kata (infixes), akhiran kata (suffixes) dan awalan dan akhiran kata pada kata turunan (confixes).
Stemming dilakukan dengan bantuan library Sastrawi. Berikut ini adalah hasil dari proses Stemming.
</p>
<br>
{% if stemming %}
<code> {{ stemming }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Proximity Indexing-->
<section class="resume-section" id="proximityIndexing">
<div class="resume-section-content">
<h2 class="mb-5">Proximity Indexing</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Tahap akhirnya adalah proses indexing menggunakan metode Proximity Indexing.
Metode Proximity Indexing mempresentasikan term (kata yang telah melakukan pra-pemrosesan
mulai tokenisasi hingga stemming) sebagai vektor, dimana akan dihasilkan ID dokumen
dalam bentuk index untuk masing-masing term beserta posisi term dalam dokumen tersebut.
Hasil dari Proximity Indexing adalah sebagai berikut.
</p>
<br>
{% if indexing %}
<code> {{ indexing }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
</div>
<!-- Bootstrap core JS-->
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script>
<script src="https://stackpath.bootstrapcdn.com/bootstrap/4.5.0/js/bootstrap.bundle.min.js"></script>
<!-- Third party plugin JS-->
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery-easing/1.4.1/jquery.easing.min.js"></script>
<!-- Core theme JS-->
<script src="../static/simulator_design/js/scripts.js"></script>
</body>
</html>