Pagerank
Menü

Ismerkedjünk meg röviden, hogy mi is a PageRank lényege, miért is nagyszerű amit a Google kitalált!
Az itt található információk kicsit bonyolultak lehetnek az átlagos felhasználó számára, de rendkívül érdekes dolgokra derül fény, és ezen információk birtokában jobban megérthetjük a Google működését.

Röviden a PageRank-ról :

A PageRank a Google internetes keresőmotor legfontosabb eleme.
Larry Page és Sergey Brin (a Google alapítói) fejlesztették ki 1988-ban a Stanfordi Egyetemen.
A "PageRank" szó a Google bejegyzett védjegye. Az eljárást az USA-ban szabadalom védi (6,285,999. számú U.S. szabadalom).
A PageRank egy olyan algoritmus, amely hiperlinkekkel összekötött dokumentumokhoz számokat rendel azoknak a hiperlink-hálózatban betöltött szerepe alapján.

A PageRank definíciója :

A fenti alapötlet szerint kezdetben minden oldalnak egy egységnyi szavazata van, amit egyenlően szétoszt azok között az oldalak között, amikre hivatkozik, és a más oldalaktól kapott szavazatokat is ugyanígy továbbosztja. Egy oldal PageRank-je megegyezik a kapott szavazatok számával (ami nem feltétlenül egész szám). Ahhoz, hogy ez az eljárás jóldefiniált legyen, be kell vezetni egy d csillapító tényezőt (damping factor - részletes kifejtése a következő részben): az oldalak a szavazatukból csak d részt osztanak tovább, (1-d)-t pedig megtartanak. (A mástól kapott szavazatokat teljesen továbbosztják.)
Így a PageRank-re a következő képlet adódik:


ahol M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra,
L(j) pedig a j. oldalról kimenő linkek száma.

Normális esetben (ha kizártuk a lógó linkeket), ha a vizsgált hálózat N oldalból áll, akkor az egyes oldalak PageRank-jeinek összege N lesz. Így a PageRank szavazás helyett úgy is elképzelhető, mint a kezdetben a weblapok között egyenletesen elosztott fontosság átcsoportosítása.

Sztochasztikus szörföző :

A PageRank-et úgy is felfoghatjuk, mint annak a valószínűségét, hogy oda találunk az oldalra. A valószínűséget a sztochasztikus szörfözővel modellezzük, aki a weben bolyong, és minden lépésben véletlenszerűen, egyenletes eloszlás szerint kiválaszt egyet az oldalon található linkek közül, és azon halad tovább. (Más szóval véletlen bolyongást végez a hiperlinkek alkotta irányított gráfon.) Hogy ne essen csapdába valamelyik olyan részgráfban, amiből nem vezet kifelé link, a modellt kiegészítjük egy további elemmel: a szörföző minden lépésben 1-d valószínűséggel elunja magát, és egy (egyenletes eloszlás szerint) véletlenszerűen választott weblapra ugrik. Így, ha az n.-ik lépésben az egyes oldalakon tartózkodás esélyét a számok adják meg, akkor a következő lépés utáni valószínűségeket a


képlettel kapjuk.

Az egyes lépésekben felvett pozíciók mint valószínűségi változók sorozata egy irreducibilis és aperiodikus Markov-láncot alkot, tehát létezik határeloszlása. (Ehhez szükséges a csillapító tényező: ha a gráf nem lenne erősen összefüggő - márpedig egy véletlen gráf 1 valószínűséggel nem az -, akkor a lánc reducibilis lenne.) Az oldal PageRank-jét a határeloszlásban hozzá tartozó valószínűségként definiáljuk. Ez a következő rekurzív képletet adja a PageRank-re:


Ez nem azonos a szavazásos képlettel: az 1-d tényező itt le van osztva az összes oldal számával, tehát az így definiált PageRank az előzőnek éppen N-edrésze. Brin és Page eredetileg a sztochasztikus szörföző modelljéből vezette le a PageRank képletét, de eltévesztették a képletet, és az N nélküli változatot publikálták. Bár a későbbi cikkekben kijavították, mégis a "hibás" változat terjedt el, mert a gyakorlatban könnyebben számítható: N-t nehéz meghatározni, mert a kereső a folyamatosan változó világhálónak egyszerre mindig csak egy kis részét látja.

A sztochasztikus szörföző modellel definiált PageRank tehát egy valószínűségi eloszlás lesz: egy oldal PageRankje annak a valószínűsége, hogy nagyon sok véletlenszerű kattintás (és ugrás) után éppen arra az oldalra érkezünk. (A PageRank reciproka az oldal várható visszatérési ideje, azaz annak a várható értéke, hogy az oldalról elindulva hány lépés múlva érünk vissza oda.)

Az alábbi táblázatban össze tudjuk hasonlítani a képlet által kapott és egyben valós PageRank értéket azzal amit az általunk kínált kép mutat :

A megkapott Pagerank érték : A mutatott PageRank érték :
0.00000001 - 5 1
6 - 25 2
26 - 125 3
126 - 625 4
626 - 3125 5
3126 - 15625 6
15626 - 78125 7
78126 - 390625 8
390626 - 1953125 9
1953126 - végtelen 10


Természetesen ahhoz mi most leüljünk és kiszámoljuk oldalunk PageRank értékét felesleges is nekilátnunk, mert ha szerencsénk van akkor is csak hozzávetőleges értéket kapunk, mert a ránk mutató oldalak értékeit is tudnunk kellene és az azokra mutatót is, tehát ezért ez felesleges.
De ha felrakjuk oldalunkra az itt igényelhető PageRank mérő eszközt, akkor roppant gyorsan és egyszerűen megkapjuk mindíg az aktuális értéket.

Még egy dologra szeretném felhíni a figyelmét annak aki e sorokat olvassa :

Ha most elkezdünk összelinkelgetni oldalak ész nélkül, és megpróbáljuk valahogy oldalunk PageRank értékét növelni úgy hogy mindenhová megpróbáljuk felrakatni oldalunk linkjét, az nem egy jó stratégia.
Szeretném leszögezni, hogy ha oldalunk nem bír ertékes és értékelhető tartalommal, akkor úgysem fogunk találni értékes linkpartnert magunknak.
A legfontosabb egy olyan weboldal elkészítése során, amit a nagyközönségnek szánunk,
hogy a tartalma értékes legyen mások számára is. Értéktelen oldal készítésének, és népszerüsítésének semmi értelem sincs. Sajnos ezt manapság nagyon sokan elfelejtik...

info@gpr.hu

© 2005-2008 GPR.hu. Minden jog fenntartva.
Optimális képfelbontás 1024x768. Ajánlott böngésző : Firefox 1+ .
Webtárhely - Bluecast Kft.


Google PageRank