Cum funcționează Google (II)

vineri, aprilie 11, 2014 12:10
Posted in category IT

Google RomaniaContinuăm cu partea a doua a serialului referitor la funcționarea motorului de căutare Google. Wikipedia oferă și alte detalii despre Google (pe lângă cele amintite în prima parte). Firma Google oferă următoarele servicii:
::: motorul de căutare pe internet Google;
::: Google Earth, imagini din satelit ale Pământului (înregistrate, nu live);
::: Google Chrome, navigator de web (browser);
::: Gmail, sistem de e-mail;
::: Android, sistem de operare de tip open source pentru dispozitive mobile;
::: Google+, rețea de socializare etc.

Robotul de căutare Google (google-bot) scanează Internetul, site cu site, pagină cu pagină, pentru a colecta cât mai mult din informaţia creată de deţinătorii de site-uri, bloguri etc. Ulterior acest conţinut este stocat într-o bază de date impresionantă de unde sunt extrase rezultatele atunci când apare o interogare pe pagina de căutare Google.

2. Google Indexer

Google-bot procesează paginile pe care le solicită şi primeşte de la serverele de web pentru a le depozita conţinutul într-o imensă bază de date. Sunt colectate atât tag-urile (cum sunt tag-urile pentru titlu), cât şi atributele (cum sunt atributele ALT). Procesarea are însă limitele sale, fişierele multimedia (filme, fişiere audio, fişierele flash – .swf) ori paginile dinamice neputând fi parcurse din punct de vedere al informaţiei conţinute. De asemenea, nici textul din imagini nu poate fi colectat de google-bot.

Cuvintele colectate sunt depozitate aşadar în baza de date Google. Fiecare termen este însoţit de lista paginilor în care acesta apare şi poziţia în text în care se află. Această formă de stocare permite accesul rapid la paginile web atunci când acestea conţin termenii folosiţi de un utilizator în interogarea sa pe pagina de căutare Google. Cuvintele foarte întâlnite, cum sunt prepoziţiile, pronumele etc. nu sunt indexate, întrucât nu sunt relevante într-o eventuală căutare.

Google WebMaster Tools şi indexarea reală a paginilor web

Cei care folosesc WebMaster Tools, instrumentul pus la dispoziţia administratorilor site-uri pentru a urmări nivelul de indexare a paginilor site-ului de către Google probabil că au observat următoare inadvertenţă: deşi pagini nou create pe site apar ca fiind neindexate de Google, în fapt, la o căutare folosind cuvinte cheie potrivite se observă acestea sunt luate în calcul de Google, că se află în baza de date a acestuia, iar lista de rezultate Google le conţin. Acest fapt înseamnă, simplu, că datele din pagina WebMaster Tools nu este actualizată. Uneori trec săptămâni până când Google afişează datele corecte şi aici.

Procesorul de interogari (query processor)

Procesorul de interogări este constituit din celebra interfaţă Google (pagina de căutare, google.com), motorul care evaluează interogările utilizatorilor şi identifică paginile web relevante şi softul care formatează rezultatele căutării.

Interogare Google

Atunci când un utilizator efectuează o căutare pe Google, are loc o căutare rapidă în indexul de termeni şi sunt returnate linkuri către acele pagini web considerate de Google cele mai relevante pentru respectiva interogare. Relevanţa unei pagini web raportată la o căutare este determinată de mai bine de 200 de factori, dintre care unul important este Page Rank-ul (despre care vom vorbi în detaliu în articolul următor). În esenţă, Page Rank-ul reprezintă importanţa unei pagini web bazată pe linkurile către aceasta de la alte pagini. Desigur, Google ţine secret modul în care stabileşte relevanţa paginilor.

Sursa: scientia.ro

Citeste si articolele:

Dacă ţi-a plăcut articolul, ai ceva de completat sau ai ceva de reproşat (civilizat) la acest text, scrie un comentariu, ori pune un link pe site-ul (blogul) tău, în cazul în care vrei ca şi alţii să citească textul sau (obligatoriu) dacă ai copiat articolul parţial sau integral. După ce ai scris comentariul, acesta trebuie aprobat de administratorul site-ului, apoi va fi publicat.

Adauga un comentariu