PageRank

Salah satu elemen yang menentukan peringkat sebuah halaman web di search engine (khusus Google) adalah PageRank (PR). Semakin tinggi PR sebuah halaman, semakin atas link halaman tersebut akan di tampilkan pada hasil pencarian di Google.

PR adalah algoritma analisis link milik Google yang memberikan bobot numerik (skor) pada setiap elemen dari kumpulan dokumen di WWW yang memiliki hyperlink (baik link masuk maupun keluar). Nilai PR tersebut menentukan derajat kepentingan atau relevansi sebuah halaman web dalam hubungannya dengan halaman web lainnya. PR menginterpretasikan sebuah link dari halaman A ke halaman B sebagai suara (vote), dari halaman A, untuk halaman B.

Lebih dalam lagi, Google tidak hanya menghitung jumlah vote yang didapatkan oleh sebuah halaman web; ia juga menganalisi halaman web yang memberikan vote. Vote yang diberikan oleh halaman-halaman web yang juga “penting” akan memiliki bobot yang lebih berat, dan membantu halaman web yang menerimanya menjadi ikut “penting”. Dengan kata lain, vote yang diberikan oleh halaman web yang “tidak penting” tidak akan membantu dalam menaikkan peringkat PR halaman yang menerimanya.

Nilai PR dari sebuah halaman web didefinisikan secara berulang (rekursif), bergantung pada jumlah, dan bobot seluruh halaman web yang merujuk padanya (inbound link). Sebuah halaman web yang mendapatkan link masuk dari banyak halaman web lainnya dengan nilai PR yang tinggi, akan turut mendapatkan skor yang tinggi. Bila sebuah halaman web tidak mendapatkan link masuk, maka tidak ada suara atau dukungan untuk halaman web tersebut.

Google memberikan bobot numerik dari 0 sampai 10 untuk setiap halaman web yang ada di WWW; peringkat PR ini menunjukkan seberapa penting sebuah halaman web di mata Google. Sebuah Halima web yang mempunyai nilai PR 8 akan diurutkan lebih dahulu dalam daftar hasil pencarian Google daripada halaman web dengan nilai PR 7, dan seterusnya yang lebih kecil. PR sendiri merupakan turunan dari teori probabilitas nilai dalam sebuah skala logaritma seperti skala Richter.

Algoritma PR

PR merupakan sebuah distribusi probabilitas yang digunakan untuk merepresentasikan kesamaan bahwa seseorang secara acak mengklik link untuk sampai pada halaman web tertentu. Probabilitas diekspresikan sebagai nilai numerik antara 0 dan 1. Probabilitas 0,5 secara umum diekspresikan sebagai “peluang 50%” bagi sesuatu untuk terjadi. Oleh sebab itu, PR 0,5 berarti terdapat peluang 50% bahwa seseorang mengklik pada link acak, yang akan diantarkan pada halaman web dengan nilai PR 0,5.

Mari kita asumsikan sebuah dunia kecil yang hanya memiliki empat halaman web, yakni A, B, C, dan D. Sebagai perkiraan awal, nilai PR dibagi rata untuk keempat halaman web, atau masing-masing halaman web memilki nilai PR 0,25. Sekarang, mari kita lihat distribusi probabilitas yang sederhana dengan nilai awal 0,25. Bila masing-masing halaman web B, C, dan D hanya merujuk ke A, berarti ketiga halaman web memberikan nilai PR 0,25 kepada A.

Dalam contoh sederhana di atas, nilai keseluruhan PR() akan terkumpul pada A karena seluruh link merujuk padanya. Bila dihitung dengan rumus PR(A) = PR(B) + PR(C) + PR(D), maka A sekarang memiliki nilai PR 0,75. Namun, andai kata halaman web B juga merujuk pada C, dan D merujuk kepada ketiga halaman web lainnya, maka nilai suara yang disumbangkan akan dibagi di antara semua link keluar (outbound link) pada sebuah halaman web.

Hasilnya, halaman web B memberikan nilai vote 0,125 kepada A, dan 0,125 kepada C. Hanya sepertiga dari nilai PR halaman web D yang disumbangkan kepada A (kisaran 0,083). Rumus untuk algoritma sederhana di atas menjadi PR(A) = PR(B)/2 + PR(C)/1 + PR(D)/3. Dengan kata lain, nilai PR yang disumbangkan oleh sebuah outbound link, atau L(), sama dengan nilai PR halaman web penyumbang yang dibagi jumlah outbound link yang dimilikinya atau dapat diekspresikan dengan rumus PR(A) = PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D).

Random Surfer Model

Random surfer model merupakan pendekatan yang menggambarkan bagaimana peluang atau probabilitas seseorang mengklik sebuah link berbanding dengan jumlah link yang ada pada halaman tersebut. Pendekatan ini yang digunakan Google, sehingga PR dari inbound link tidak langsung didistribusikan ke halaman web yang dituju, melainkan dibagi dengan jumlah outbound link yang ada pada halaman web tersebut.

Metode ini juga memiliki pendekatan bahwa seseorang tidak akan mengklik semua link yang ada pada sebuah halaman web. Oleh karena itu, PR menggunakan damping factor untuk mereduksi nilai PR yang didistribusikan sebuah halaman web ke halaman web lainnya. Probabilitas seseorang mengklik semua link yang ada pada sebuah halaman ditentukan oleh nilai damping factor (d) yang bernilai antara 0 sampai 1.

Nilai damping factor yang tinggi, berarti seseorang akan lebih banyak mengklik sebuah halaman sampai dia berpindah ke halaman lain. Setelah seseorang berpindah halaman web, maka probabilitas diimplementasikan ke dalam algoritma PR sebagai konstanta (1-d). Dengan mengeluarkan variable inbound link, maka kemungkinan seseorang untuk berpindah ke halaman lain adalah (1- d). Hal ini akan membuat PR selalu berada pada nilai minimum.

Informasi Lebih Lanjut

http://id.wikipedia.org/wiki/PageRank

www.ianrogers.net/googlepage-rank

0 comments:

Posting Komentar