Apa itu Web Scraping? Apakah legal untuk dilakukan?

Assalamu'alaikum warahmatullahi wabarakatuh. 

Apa kabar teman-teman semua? Semoga sehat-sehat aja ya semua. Oh iya, sebelum saya panjang lebar menulis artikel ini, izinkan saya mengucapkan Selamat Hari Raya Idul Fitri 1440 H. Taqabbalallahu Minna Wa Minkum. Semoga Allah menerima amal ibadah kita semua. Aamiin. 

Nah, pada kesempatan kali ini, saya akan membahas tentang web scraping dan menjelaskan sedikit apakah web scraping itu legal untuk dilakukan. Untuk mempersingkat waktu, langsung saja, berikut adalah penjelasan mengenai web scraping dan hukum web scraping apakah boleh dilakukan atau tidak.

Web scraping adalah proses ekstrasi data dari sebuah website. Salah satu contoh web scraping adalah meng-copy daftar contact dari sebuah direktori web. Memang, teman-teman bisa saja melakukan ini secara manual denagn meng-copy paste data ke excel, misalnya. Tetapi bagaimana kalau datanya banyak? Untuk ini, teman-teman membutuhkan sebuah sistem otomatis yang bisa membantu proses web scraping teman-teman lebih cepat dan mudah.

Apa itu Web Scraping? Apakah legal untuk dilakukan?
Skema web scraping

Web scraping dilakukan dengan menggunakan web scraper, bot, web spider, atau web crawler. Web scraper sendiri adalah program yang masuk ke halaman website, download kontennya, mengekstrak data dari konten, dan menyimpan data ke satu file atau database.

Contoh lain dari kegunaan web scraping yaitu untuk mengambil data-data dari suatu situs. Misalnya mengambil data-data dari berbagai situs marketplace untuk dibandingkan harganya, menampilkan jadwal imsak di dimana data berasal dari Kementerian Agama, mengambil data prakiraan cuaca, dan masih banyak lainya. Web scraping juga bisa digunakan untuk mengexport kumpulan list data dari website ke format file csv, json, excel, dsb.

Lantas, apakah web scraping legal untuk dilakukan?

Sudah lama kita menganggap apa yang dilakukan robot/crawler merupakan hal yang biasa dan legal. Tetapi apakah hal ini berlaku pula apabila scraping digunakan untuk keperluan yang lain? Seperti membuat website aggregator dari situs-situs berita, atau membangun website layanan untuk membandingkan harga produk atau tiket dari beberapa website ecommerce dan ticketing.

Dari contoh diatas kita sudah dibentengi oleh peraturan atau perundangan tentang duplikasi dan distribusi ulang konten, yang diatur di undang-undang ITE atau Undang-undang Hak Cipta. Untuk menindaklanjuti secara hukum lebih mudah, karena bentuk dan buktinya terlihat dengan kasat mata.

Tetapi teknik web scraping telah bermetamorfosis ke bentuk yang lebih canggih. Web scraping tidak lagi sekedar mengambil konten dari website, tetapi telah memiliki kemampuan untuk berperilaku dan melakukan aksi seperti yang dilakukan oleh manusia.

Perilaku manusia seperti memasukan input, klik tombol submit, menggerakan mouse, scroll halaman, mampu di replikasi oleh aplikasi. Dari sisi positif, kemampuan ini bisa digunakan untuk pekerjaan QA dalam mensimulasikan perilaku user terhadap halaman website. Tetapi dari sisi lainnya, kemampuan Web scraping yang sekarang dapat disalahgunakan untuk hal-hal yang negatif dan destruktif.

Bagaimana agar web kita terlindung dari web scraping?

Pertahanan yang paling efektif dalam menaggulangi web robot ini tentunya adalah memblokir IP tersebut agar tidak dapat mengakses website kita lagi, atau me-redirect-nya ke halaman captcha, seperti yang dilakukan google.com apabila mereka mencurigai IP yang mengaksesnya berasal dari web robot.

Apa itu Web Scraping? Apakah legal untuk dilakukan?
Contoh penggunaan captcha

Penggunaan Captcha sangat efektif dalam mendeteksi antara user sesungguhnya dengan robot, tetapi harga yang harus dibayar adalah ketidak nyamanan user pada saat berinteraksi dengan website kita.

Permasalahan dari proteksi website kita terhadap web robot atau web scraping adalah, bagaimana cara mengidentifikasikan request tersebut berasal dari user biasa atau robot, karena keduanya melakukan single request yang sulit dideteksi oleh firewall.

Dan juga bagaimana memisahkan traffic yang berasal dari web scraping dengan yang datang dari crawler, karena keduanya memiliki karakteristik request yang sama, yakni sama-sama mengakses website hanya untuk mengambil kontennya saja.

Tidak seperti jumlah produk keamanan seperti Anti-virus, Firewall, WAF yang banyak pilihannya, Solusi anti-scraping tidak banyak tersedia di pasaran. Jenisnya sendiri ada dua macam, ada yang hanya berfungsi untuk mengidentifikasikan traffic yang dicurigai sebagai scraper, ada pula yang menyediakan berikut dengan fitur untuk mengintegrasikan dengan perangkat infrastruktur kita. Dengan mengintegrasikan dengan perangkat ini artinya kita dapat melalukan action secara otomatis tanpa perlu sentuhan manusia.

Dua hal yang paling penting untuk disadari pada saat memilih teknologi yang akan digunakan ini adalah, pahami arsitektur aplikasi yang kita kelola, agar fungsi dari anti-scraping ini dapat bekerja dengan efektif tanpa menghabiskan resource server.

Dan yang kedua adalah, beri waktu yang cukup untuk teknologi dan tim operasional untuk mempelajari hasil dari analisa anti-scraping ini. Jangan sampai pengalaman user dalam mengakses website kita menjadi terganggu dan alih-alih malah merusak bisnis jangka panjang.

Itu dia teman-teman penjelasan mengenai web scraping. Mudah-mudahan bisa memberikan tambahan wawasan bagi kita semua. Terima kasih sudah mau membaca artikel ini. See you next time!

Wassalamu'alaikum warahmatullahi wabarakatuh.



REFERENSI:

Komentar