Web Using Data Mining


C3 Tahap-Tahap dalam Kerangka Kerja Web Usage Mining
Web usage mining secara garis besar terdiri atas tiga fase, yaitu data preprocessing, pattern discovery, dan pattern analysis.

C3.1 Sumber-Sumber Data
Salah satu langkah penting dalam proses penemuan pengetahuan dari basis data adalah bagaimana membuat kumpulan target data yang tepat. Pada web mining, data yang digunakan dapat dikumpulkan pada level server, client, maupun level proxy server, atau bahkan diambil dari basis data organisasi yang berisi data bisnis dan konsolidasi data web.
C3.1.1 Sumber Data dari Server
Salah satu sumber yang sangat penting dalam hal ini adalah web server log, karena log secara eksplisit merekam semua perilaku penggunaan web oleh berbagai user. File log ini dapat disimpan dalam berbagai macam format yang berbeda.
Kadangkala data-data yang dikumpulkan pada server log tidak sepenuhnya reliable. Cache page tidak disimpan dalam server log. Selain itu, informasi penting lain, misalnya yang menggunakan metode POST, juga tidak tersedia pada server log. Packet sniffing merupakan salah satu alternatif untuk memonitor lalu lintas jaringan yang masuk ke web server dan mengekstraksi data secara langsung dari paket TCP/IP. Web server juga dapat menyimpan informasi penggunaan yang lain, misalnya cookies dan data query pada log yang terpisah.
C3.1.2 Sumber Data dari Client
Pengumpulan data pada sisi client dapat dilakukan dengan menggunakan remote agent, misalnya javascript atau java applets, atau dengan cara memodifikasi source code browser untuk meningkatkan kemampuan browser tersebut dalam mengumpulkan data-data yang diinginkan. Implementasi pada sisi client ini tentunya memerlukan kerja sama dari pengguna, misalnya dengan cara mengaktifkan script ataupun applets, atau menggunakan browser yang sudah dimodifikasi tadi.
Pengumpulan data dari client memiliki kelebihan daripada pengumpulan data dari server karena kemampuannya menyimpan cache dan session. Di sisi lain, penggunaan java applets menambah beban pada saat diload pertama kali, dan kemampuannya menyimpan actual view time tidak lebih baik daripada server logs. Javascript dapat dikatakan lebih ‘ringan’ tetapi ada beberapa aksi yang dilakukan pengguna yang tidak dapat disimpan, misalnya eksekusi tombol-tombol tertentu. Kedua metode ini hanya sanggup mengumpulkan data single user pada single site browsing. Modifikasi pada browser mampu mengumpulkan data single user pada multiple web sites.
C3.1.3 Sumber Data dari Proxy
Web proxy berfungsi melakukan caching antara client dan web server, gunanya untuk mereduksi time load dan traffic load. Dari web proxy dapat diperoleh data akses web dari multiple user pada multiple web site.

C3.2 Data Preprocessing
Data preprocessing meliputi proses konversi informasi-informasi usage, content, dan structure yang didapat dari sumber-sumber data di atas menjadi bentuk abstraksi data yang dibutuhkan pada proses Pattern Discovery. Beberapa terminologi yang digunakan:
– Pengguna/user: individu yang mengakses file dari satu atau lebih web server dengan menggunakan browser.
– Page view: file tunggal yang ditampilkan ke pengguna pada suatu waktu.
– Click-stream: kumpulan permintaan page view.
– User session: click-stream untuk satu pengguna pada keseluruhan web site.
– Server session: click-stream dalam sebuah user session untuk satu web site.

C3.2.1 Usage Preprocessing
Usage preprocessing dapat dikatakan proses tersulit dalam web usage mining karena ketidaklengkapan data yang tersedia. Berbagai permasalahan yang mungkin muncul:
– Single IP address/multiple server sessions: Proxy server tunggal digunakan oleh banyak pengguna pada waktu bersamaan.
– Multiple IP addresses/single server session: Server session tunggal melayani permintaan ke banyak IP address.
– Multiple IP addresses/single user: Satu pengguna dapat mengakses web dari lebih dari 1 terminal sehingga memiliki lebih dari 1 IP address.
– Multiple agents/single user: Satu pengguna yang menggunakan browser yang berbeda-beda akan dianggap multiple users.
C3.2.2 Content Preprocessing
Content preprocessing meliputi proses konversi site content yang meliputi teks, gambar, script, dan file multimedia menjadi bentuk yang dapat digunakan untuk web usage mining. Dalam konteks web usage mining, site content dapat digunakan untuk menyaring/membatasi input dan output pada algoritma yang digunakan dalan proses pattern discovery.
C3.2.3 Structure Preprocessing
Struktur sebuah situs dibentuk oleh hypertext links antara page views. Struktur ini dapat diambil dan diproses dengan cara yang serupa dengan content preprocessing. Setiap struktur situs kemudian dipilah-pilah untuk masing-masing server session.

C3.3 Pattern Discovery
– Analisis Statistik
Teknik ini merupakan metode yang paling umum digunakan untuk mengekstraksi pengetahuan mengenai kunjungan ke sebuah situs tertentu. Analisis terhadap file session akan menghasilkan informasi statistik misalnya page yang paling sering diakses, waktu akses rata-rata, frekuensi error, dan sebagainya. Informasi ini dapat digunakan untuk meningkatkan performansi sistem, peningkatan sistem keamanan, dan men-support keputusan pemasaran.
– Association Rules
Association rules merujuk pada kumpulan pages yang diakses bersamaan. Kumpulan pages ini belum tentu dihubungkan satu sama lain oleh hyperlink. Selain untuk kebutuhan bisnis dan pemasaran, informasi ini dapat dimanfaatkan pula untuk membantu bagaimana mendesain/merestrukturisasi situs web.
– Clustering
Clustering merupakan teknik untuk mengumpulkan beberapa item yang memiliki karakteristik serupa/mirip, dalam konteks ini usage clusters dan page clusters. Usage clustering dapat digunakan untuk menemukan pengguna-pengguna yang memiliki kemiripan pola browsing, yang pada akhirnya digunakan untuk menentukan segmentasi pasar atau menyediakan personalisasi web. Page clustering akan menghasilkan kumpulan pages yang memiliki kemiripan isi, yang dapat dimanfaatkan oleh search engine dan web assistance providers.
– Classification
Klasifikasi merupakan proses pemetaan data ke dalam beberapa kelas yang telah didefinisikan sebelumnya. Hasilnya dapat digunakan untuk menemukan karakteristik tertentu misalnya berdasarkan jenis situs yang diakses, umur pengguna, tempat tinggal, dan sebagainya.

C3.4 Pattern Analysis
Pattern analysis merupakan proses penyaringan rules ataupun pola yang tidak penting, yang telah ditemukan pada proses pattern discovery.


Leave a Reply