Aplikasi Pemeriksa Duplikat Konten Menggunakan Teknik Web Scraping Pada Halaman Hasil Pencarian Google
Abstract
Konten adalah informasi yang tersedia melalui media atau produk
elektronik (Pusat Bahasa, 2008). Konten merupakan hal yang diprediksikan
menjadi sumber penghasilan nyata di Internet dengan hanya menyiarkan atau
mempublikasikannya (Gates, 1996). Oleh karena itu, konten memiliki persyaratan
yang harus dipenuhi sebelum diterbitkan dan diindeks oleh mesin pencarian seperti
Google agar konten tersebut mudah ditemukan oleh pembaca.
Salah satu persyaratan yang harus dipenuhi adalah persoalan duplikasi
konten. Duplikasi konten mengacu pada persamaan atau kemiripan suatu konten
dengan konten lain yang telah ditemukan sebelumnya oleh mesin pencari tersebut
(Google, Duplicate content, 1998). Google menghukum website yang melakukan
duplikasi dengan sangat tegas, hukuman dimulai dari pengurangan peringkat
website hingga penghapusan semua indeks website yang dianggap melakukan
duplikasi (Google, Duplicate content, 1998).
Berdasarkan masalah di atas, penulis mencoba mengembangkan sebuah
aplikasi yang dapat digunakan untuk memeriksa duplikasi konten langsung dari
halaman pencarian Google dengan teknologi Web Scraping. Berbeda dengan
Plagiarism Checker, aplikasi ini bukan memberikan keluaran berupa presentasi
duplikasi melainkan memberi tanda atau petunjuk secara pasti pada kombinasikombinasi
kata yang dianggap duplikat sehingga dapat diketahui dan diperbaiki.
Konten yang memiliki susunan kata yang dianggap duplikat juga akan dilengkapi
dengan sumber yang dijadikan dasar duplikasi sehingga hasil yang diberikan dapat
dipercaya.
Aplikasi ini dibuat menggunakan teknologi Goutte sebagai antar muka
scraping data serta Guzzle sebagai sarana melakukan permintaan http, aplikasi ini
juga menggunakan Laravel sebagai kerangka kerja php. Metodologi yang
digunakan pada penelitian ini antara lain studi literatur, analisis, perancangan,
implementasi serta pengujian dan evaluasi.
Berdasar pengujian yang dilakukan, aplikasi ini memiliki tingkat validitas
sistem 100% valid sehingga dapat disimpulkan bahwa aplikasi ini dapat
memberikan informasi duplikasi konten yang reliabel sehingga dapat membantu
publisher dalam menciptakan konten yang unik.
Kata Kunci: Konten, Google, Web Scraping, Duplikat.
Collections
- Informatics Engineering [2148]