Motor de căutare
Un motor de căutare este un program apelabil căutător, care accesează Internetul în mod frecvent și care stochează titlul, cuvinte cheie și, parțial, chiar conținutul paginilor web într-o bază de date. În momentul în care un utilizator apelează la un motor de căutare pentru a găsi o informație, o anumită frază sau un cuvânt, motorul de căutare se va uita în această bază de date și, în funcție de anumite criterii de prioritate, va crea și afișa o listă de rezultate (engleză: hit list ).
Problema nu este deloc trivială, deoarece:
- există deja peste 100 milioane de site-uri web, sumând în total miliarde de pagini web, distribuite pe tot globul
- conținutul acestori pagini nu este static, ci chiar extrem de dinamic (se schimbă frecvent)
- răspunsul la o comandă de căutare trebuie să vină repede, în general în mai puțin de o jumătate de secundă, chiar atunci când lista de rezultate conține, să zicem, zeci de mii de pagini web potrivite la criteriile de căutare folosite.
Elemente principale
modificareOrice motor de căutare are trei elemente majore:
- robotul de căutare: (engleză - robot, spider sau web crawler) este un program care vizitează paginile web, le citește și apoi urmărește legăturile către alte pagini.
- index sau catalog: unde sunt trecute informațiile despre fiecare pagină web pe care le găsește robotul (titlul și adresa paginii, cuvinte cheie, porțiuni de text din paginile vizitate, legături către alte pagini etc.); pentru aceasta, robotul utilizează un fișier text (robots.txt) aflat în rădăcina site-ului care poate permite sau restricționa roboții motoarelor de căutare să acceseze paginile site-ului.
- software-ul de căutare: care permite căutarea printre multitudinea de pagini înregistrate în index precum și afișarea rezultatului sub forma unei liste de legături, în ordinea relevanței. [1]
Exemple
modificareCele mai utilizate motoare de căutare în iulie 2011 sunt[2]:
Motor de căutare | Cotă de piață | |
---|---|---|
82,7% | ||
Yahoo! | 6,5% | |
Baidu | 4,7% | |
Bing | 3,7% | |
Ask | 0,5% | |
Aol | 0,4% | |
Excite | 0,0% | |
Wolfram Alpha | 0,0% | |
SoundHound | 0,0% |
Cele mai utilizate motoare de căutare în iunie 2020 sunt[3]
Motor de căutare | Cotă de piață |
---|---|
92.06% | |
Bing | 2.61% |
Yahoo! | 1.79% |
Baidu | 1.16% |
Yandex | 0.56% |
Yandex RU | 0.52% |
Pentru crearea acestor motoare de căutare este necesar un spider (bot, spider, web crawler) care este realizat într-un limbaj de programare care poate fi Perl, Ruby, Java, Php. Acesta extrage linkurile utile, care apoi se găsesc într-o formă prelucrată și filtrată prin metode specifice într-o bază de date.
Istoric
modificare- 1990: Trei studenți în domeniul informaticii de la Universitatea din Montreal, creează prima unealtă de căutare pe internet, Archie. Aceasta descărca listele de directoare a tutor fișierelor plasate public, pe site-uri FTP, însă nu indexa conținutul acestora. Archie folosea potrivire la nivel de expresie, care sunt caractere și bucăți de fraze pentru a aduce utilizatorii la adresa serverului pe care era fișierul gazduit.
- 1991: este creat Gopher, la Universitatea din Minnesota. Gopher a condus la apariția unor două noi programe, Vernica(motor de căutare) și Jughead. La fel ca Archie acestea căutau titlurile și numele fișierelor indexate de Gopher.
- 1993: Oscar Nierstrasz a de la Universitatea din Geneva, creează primul motor de căutare, Web Catalog. În același an a fost lansat JumpStation, care folosea un robot web pentru a găsi pagini și a construi indexul propriu. JumpSation se folosea de un formular web ca interfață pentru programul de căutare combinând cele trei caracteristici importante ale unui motor de căutare: vizitare, indexare și căutare.
- 1994: a fost lansat WebCrawler primul motor de căutare cunoscut la scară largă de către public. Acesta permitea căutarea oricărui cuvânt în orice pagină, mod de funcționare ce a devenit un standard pentru toate motoarele de căutare apărute de atunci și până în prezent. WebCrawler este urmat de mai multe motoare de căutare, aflate într-o luptă acerbă pentru popularitate: Magellan, Excite, Infoseek, Inktomi, Northen Light, AltaVista, Lycos. Tot în același an apare Yahoo!, care a reprezentat cea mai populară cale prin care se putea găsi informațiile pe internet, dar funcția de căutare a acestuia opera doar în directorul propriu.
- 1996: Netscape oferă exclusivitatea unui singur motor de căutare în privința căutărilor din cadrul browserului Netscape.
- 1998: Microsoft lansează motorul de căutare MSN folosind rezultate de căutare de la Inktopi și apoi de la AltaVista. Câțiva ani mai târziu acesta își schimbă numele în Bing.
- 2000: motorul de căutare al companiei Google devine din ce în ce mai cunoscut. Google obține rezultate mai bune pentru mai multe căutari prin intermediul unei inovații numite PageRank. Algoritmul face o clasificare a paginilor în funcție de PageRank și de numărul de numărul de site-uri care fac legătura cu aceea pagină web. În prezent Google este cel mai folosit motor de căutare. [4]
Istoria unor motoare de căutare
modificareExcite
A fost creat în 1993 de cinci studenți (Graham Spencer, Joe Kraus, Ben Lutch, Mark Van Haren, Ryan McIntyre și Martin Reinfried) la Universitatea Stanford,California în cadrul unui proiect de curs denumit Architext Software. Devenit Excite, acesta a falimentat în 2001. În prezent 3 dintre fondatori sunt angajați Google, 2 sunt întreprinzători particulari iar ultimul este specializat în jocuri pe calculator.
Yahoo – Yet Another Hierarchical Officious Oracle
A fost creat în 1994 (din nou) în campusul Universității Stanford, California de doi studenți (David Filo and Jerry Yang), inițial pentru a putea ține evidența link-urilor WWW cu informații folosite pentru elaborarea lucrării de doctorat. A fost lansat la început sub denumirea de “Jerry and David’s Guide to the World Wide Web” însă a fost redenumit ulterior YAHOO acronim pentru (Yet Another Hierarchical Officious Oracle). Vestea s-a răspândit pe www, astfel încât, în toamna lui 1994 site-ul a fost accesat într-o singură zi de 100.000 de vizitatori. În 1995 s-a fondat Yahoo! Inc. care a ajuns astăzi să fie accesat lunar de peste 350 milioane de utilizatori, fiind al doilea motor de căutare după Google.
Altavista – A view from above
La pătrunderea internetului pe scară largă în România, undeva în anul 1996, cel mai utilizat motor de căutare era Altavista. Lansat pe 15 decembrie 1995, de către cercetătorii de la Digital Equipment Corporation’s Western Research Laboratory din Palo Alto, California, a furnizat din prima clipă o bază de date indexabilă ce conținea peste 16 milioane de documente. La sfârșitul zilei de 15 decembrie 1995, peste 300.000 de utilizatori vizitaseră pagina Altavista. După primul an de funcționare Altavista servea peste 19 milioane de cereri de căutare zilnic. Pe parcursul timpului Altavista a patentat foarte multe idei cu privire la căutarea pe INTERNET. În 2003 Altavista a fost achiziționată de Ouverture pentru 140 de milioane de dolari. La sfârșitul lui 2003, Yahoo a cumpărat Ouverture, astfel încât Altavista a sfârșit prin a avea “motorizare” Yahoo.
Hotbot
Lansat în Mai 1996 de către Wired Magazine, HotBot a devenit în scurt timp un motor de căutare apreciat care avea în spate bazele de date Inktomi, LookSmart și din 1999 Open Directory. Lycos a achiziționat HotBoot în 1998 și pentru patru ani a aplicat tehnici greșite de marketing și de promovare care au dus compania aproape de faliment. Din 2002 a fost relansat iar în prezent oferă informații pe baza bazelor de date deținute de Google și Ask Jeeves (Teoma) – “motorizare” Google..
Domeniul google.com a fost înregistrat pe 14 septembrie 1997 de Larry Page și Sergey Brin, doi studenți, atenție tot la Universitatea Stanford,California. Aceștia au avut ideea în 1996 în cadrul unui proiect, să indexeze paginile de INTERNET nu după numărul de apariții al termenului de căutare în conținutul lor, ci după numărul de legături spre acea pagină provenite de pe alte pagini WWW. Acest lucru, stă de fapt la baza algoritmului PageRank – algoritmul de căutare al Google. Pe baza acestui algoritm, fiecare pagină web poate avea un anumit rang cuprins între 0 (minim) și 10 (maxim). Cu cât rangul este mai mare, cu atât aceasta apare mai repede la o căutare pe WWW. Google Corporation a fost fondată în 1998 și în decurs de 13 ani a ajuns cel mai cunoscut motor de căutare de pe WWW.
Bing
Proprietate a gigantului Microsoft, Bing a fost lansat de către CEO Microsoft, Steve Ballmer pe 28 mai 2009. Bing a fost mai întâi Live Search după care a fost redenumit MSN Search pentru ca apoi sa devină Windows Live Search. MSN Search a fost lansat în 1998 și a depins până în 1999 de baza de date Inktomi. Din 1999 a avut “motorizare” Altavista. Începând din 2006, MSN Search a devenit Windows Live Search cu “motorizare” Microsoft. În 2009 Yahoo și Bing au încheiat un acord pe 10 ani prin care Yahoo urmează să își schimbe motorizarea astfel încât aceasta să devină Microsoft. În schimbul acestui acord, Yahoo obține 88 % din toată publicitatea pentru primii 5 ani.
La momentul actual, după cum am prezentat mai sus, toate căutările pe WWW sunt motorizate de Google, Yahoo si Microsoft, primele doua tehnologii fiind apărute la Standford University – California.
Wolfram Alpha
Wolfram Alpha a fost lansat pe 18 mai 2009 și este bazat pe un produs anterior Mathematica, o platformă computațională care integra capacități de calcul algebric, numeric, simbolic, statistic, precum și facilități de afișare grafică
Note
modificare- ^ afaceri.net: Motoare_de_cautare/Elemente-principale[nefuncțională]
- ^ Search engine market share
- ^ Servicii SEO Bucuresti. „Motoarele de cautare in prezent”. Accesat în 23 mai 2020. Verificați datele pentru:
|access-date=
(ajutor) - ^ seoromania.ro: Istoria motoarelor de căutareAna Ioniță, 04.04.2013