PageRank

algoritm pentru calculul influenței unei pagini web în baza structurii de legături

PageRank (expresie engleză cu traducerea Rangul Page) este un algoritm de analiză a hiperlegăturilor din Internet, folosit de motorul de căutare Google pentru a acorda o pondere fiecărui element dintr-o mulțime de documente interconectate prin hiperlegături, cu scopul măsurării importanței relative în cadrul mulțimii. Dacă pagina A conține un link (o legătură) către pagina B, se presupune implicit că A afirmă despre B că acesta este important, deci B trebuie să fie mai bine cotat în clasamente. Cu cât există mai multe legături calitative către un site, cu atât PageRank-ul acestuia va fi mai mare și locul în clasament mai înalt. Coeficientul PageRank este un număr întreg care poate lua valori între 0 și 10.

Valorile calculate cu PageRank (dintr-un maxim de 100) pentru o rețea simplă (Valorile obținute de Google sunt rescalate logaritmic). Pagina C are un PageRank mai mare ca pagina E, deși are mai puține legături spre ea: legătura pe care o are are o valoare mult mai mare. O persoană care navighează pe web și care alege o legătură la întâmplare de pe fiecare pagină (dar cu 15% propbabilitate să sară la o altă pagina aleatoare din tot webul) va ajunge pe pagina E în 8,1% din cazuri. (Probabilitatea de 15% de salt la o pagină arbitrară corespunde unui factor de atenuare de 85%.) Fără atenuare, toți cei care navighează vor ajunge în paginile A, B, sau C, și toate celelalte pagini ar avea PageRank zero. Se presupune că pagina A are legături spre toate paginile din web.

Numele de PageRank provine de la informaticianul american Larry Page, care a dezvoltat algoritmul la Universitatea Stanford. Numele este o marcă înregistrată a companiei Google; totuși patentul (U.S. Patent 6285999) aparține Universității Stanford, iar Google deține o licență exclusivă de utilizare a patentului. În schimbul acestei licențe Universitatea a primit 1,8 milioane de acțiuni ale lui Google; acțiunile au fost vândute în 2005 pentru 336 milioane de dolari.[1][2]

Istoric modificare

PageRank a fost dezvoltat la Universitatea Stanford de către Larry Page (de la care își trage și numele[3]) și apoi și de Serghei Brin, ca parte dintr-un proiect de cercetare despre un nou gen de motor de căutare. Proiectul a demarat în 1995 și a dus, în 1998, la un prototip funcțional denumit Google. La puțin timp după aceea, Page și Brin au înființat firma Google Inc., compania din spatele motorului de căutare Google. Deși este doar unul din factorii care determină poziția rezultatelor căutării Google, PageRank continuă să furnizeze baza tuturor dispozitivelor de căutare ale motorului Google.[4]

PageRank se bazează pe analiza citărilor, teorie dezvoltată în anii 1950 de Eugene Garfield la Universitatea de Stat Pennsylvania; fondatorii Google citează lucrările lui Garfield în lucrarea lor originală. Analiza legăturilor web a fost dezvoltată întâi de Jon Kleinberg și de echipa lui, în cadrul proiectului CLEVER de la Centrul de Cercetare Almaden al companiei IBM.

Funcționarea algoritmului modificare

Google ia în considerare doar legăturile de la situri ce au un PageRank ("PR") mai mare sau egal cu 4. Google consideră un link dinspre un sit drept un vot de încredere. Totuși Google evaluează valoarea acelui link la o valoare procentuală mai mică decât valoarea PR a sitului de unde provine acel link. PageRankul dat paginii A de către pagina B scade direct proporțional cu numărul de linkuri aflate pe pagina B. Între o pagină care are un PR de 4 cu numai 2 linkuri, și alta ce are un PR 6 dar are 5 linkuri, este indicat un link de la pagina cu PR 4. Conform lui Sergey Brin și Larry Page, cofondatori ai Google, PageRank-ul unei pagini se calculează conform formulei:

PR(A) = (1 - d) + d * SUM (PR(I->A)/C(I)) unde:

  • PR(A) este PageRank-ul paginii A.
  • d este in general 0,85.
  • PR(I->A) este PageRank-ul paginilor I care conțin un link catre A.
  • C(I) este numărul de linkuri ale paginii I.
  • PR(I->A)/C(I) este valoarea PR pe care A o primește de la I.
  • SUM (PR(I->A)/C(I)) este suma tuturor valorilor PR pe care A le primește de la paginile care conțin linkuri către ea.

Note modificare

  1. ^ Lisa M. Krieger (). „Stanford Earns $336 Million Off Google Stock”. San Jose Mercury News, cited by redOrbit. Accesat în . 
  2. ^ Richard Brandt. „Starting Up. How Google got its groove”. Stanford magazine. Accesat în . 
  3. ^ David Vise and Mark Malseed (). The Google Story. p. 37. ISBN ISBN 0-553-80457-X Verificați valoarea |isbn=: invalid character (ajutor). Arhivat din original la . Accesat în . 
  4. ^ Google Technology. [1]