Cum funcționează Google (I)

marți, aprilie 8, 2014 15:52
Posted in category IT

Google RomaniaCompania Google Inc. a fost fondată în 1998 de către doi doctoranzi la Universitatea Stanford, Larry Page și Sergey Brin (ne informează Wikipedia). Motorul de căutare Google este folosit de peste 80% dintre cei ce caută pe net, paginile Google fiind cele mai accesate pe Terra (vedeți clasamentul Top Sites Alexa Web). Compania Google a avut în 2013 un venit de 59,82 miliarde dolari (USD), active totale de 110,92 miliarde dolari (USD) și 53.861 angajați. Google este și proprietarul YouTube-ului, achiziționat acum câțiva ani.

Dacă vrem să știm cum funcționează renumitul motor de căutare Google, haideți să citim materialul de mai jos. Este o primă parte dintr-o serie în care este descrisă, într-un limbaj accesibil, funcționarea Google.

Dacă citiţi această pagină, ştim un lucru cu certitudine despre dv: aţi auzit de Google. Folosirea Google este foarte simplă, dar v-aţi întrebat cum funcţionează de fapt acesta? De unde ştie, de pildă, de site-ul A saptea dimensiune, atunci când la o interogare a dv. în caseta de căutare acesta vă „livrează”, printre altele, un link către acest site?

Google, motorul de căutare, este constituit din trei părţi:
::: google-bot – un program denumit web crawler ori robot de căutare care are rolul de a găsi şi colecta paginile web,
::: indexer – un program care sortează cuvintele găsite pe paginile colectate de google-bot şi le stochează într-o bază de date imensă;
::: query processor (procesorul de interogaţii) – softul care foloseşte cuvintele introduse de dumnevoastră în caseta de căutare a Google pentru a extrage din baza de date o serie de linkuri, care reprezintă în fapt lista de site-uri date ca răspuns la o interogaţie.

1. GOOGLE-BOT

Din cauza cuvintelor folosite pentru a-l numi, ca web crawler ori spider (păianjen), probabil că mulţi îşi imaginează că google-bot are abilitatea bizară de a sări din site în site, călătorind neobosit prin Internet. În fapt acesta face un lucru mult mai banal şi mai inteligibil: asemenea unui browser web (cum sunt Firefox ori Internet Explorer), google-bot trimite cereri către serverele web pentru a primi conţinutul paginilor web, pe care le trimite apoi către Indexer pentru prelucrare.

Google-bot, pornind să zicem de la pagina de start, determină tot lanţul de linkuri existent pe un site. De exemplu, pe Scientia.ro, pe pagina de start sunt linkuri către secţiunile site-ului. Mai departe, pe paginile corespunzătoare secţiunilor se vor găsi linkuri către categoriile site-ului, de unde se pot strânge linkurile către articolele existente pe site. Din aproape în aproape, rapid şi eficient, Google scanează site-ul mişcându-se din link în link.

După cum probabil v-aţi făcut o idee, Internetul este enorm, iar Google îşi propune, ca orice motor de căutare care se respectă, să indexeze cât mai multe dintre paginile web existente. Pentru a face acest lucru nu se poate limita la a interoga site cu site, pentru că ritmul de dezvoltare al Internetului este extrem de rapid. Pentru a ţine pasul, google-bot, bazându-se pe impresionanta reţea de calculatoare desemnată pentru a-i îndeplini misiunea de către inginerii Google, transmite mii de cereri de pagini web în acelaşi timp. Pentru a nu îngreuna funcţionarea serverelor accesate, google-bot transmitere cereri de conexiuni mult mai rar decât ar putea în fapt.

Cum află Google de un site că există?

Să luăm exemplu asapteadimensiune.ro. În momentul în care am realizat site-ul, practic acesta era necunoscut pentru utilizatorii de Internet. Google nu oferea linkuri către site-ul nostru, pentru că paginile Scientia nu figurau în baza de date Google.

Am avut la dispoziţie trei căi de a face cunoscut site-ul:
::: înştiinţarea către Google că existăm prin adăugarea site-ului ori a unor pagini ale site-ului pe pagina dedicată a google: www.google.com/addurl.html.
::: folosirea unui sitemap (hartă a site-ului) şi transmiterea acesteia către Google prin intermediul Webmaster Tools (opţiune disponibilă oricui are un cont Google. Din pagina google.ro, daţi clic pe Setting-Google account setting. În pagina care va apărea veţi observa şi un link către Webmaster Tools).
::: promovarea site-ului prin inserarea de linkuri către asapteadimensiune.ro pe alte site-uri cunoscute de Google.

Până am depăşit 100 de utilizatori pe zi veniţi pe site prin intermediul Google a trecut ceva timp.

Aşadar, pentru a simplifica, Google află de un site în urma promovării acestuia de către proprietarul site-ului ori întâlnind un link către respectivul site atunci când „vizitează” un alt site pe care îl are în baza de date.

Cât de des vizitează un site google-bot?

În mod ideal, google-bot ar trebui să „viziteze” un site în funcţie de ritmul de actualizare a site-ului. Astfel, pentru un site ca asapteadimensiune.ro, unde apar linkuri noi în fiecare zi, google-bot ar trebui să se întoarcă în fiecare zi. Şi după verificările noastre, chiar o face. În consecinţă, dacă pe un site apar informaţii noi o dată la o săptămână, google-bot „va trece” pe acolo o dată pe săptămână.

La ce foloseşte fişierul robots.txt?

Pentru posesorii de site-uri probabil că este cunoscut faptul că în folderul rădăcină al site-ului poate exista un fişier denumit robots.txt. Rostul acestui fişier, robots.txt, este acela de a restricţiona accesul roboţilor de căutare gen google-bot la anumite părţi ale site-ului.

Conţinutul acestui fişier este asemănător celui de mai jos:
User-agent: *
Disallow: /configuratie/
Disallow: /restricted/

Semnificaţia rândurilor de mai sus este aceea că folderele „configuratie” şi „restricted” nu vor fi accesate de roboţii de căutare. De ce ar vrea un posesor de site ca anumite părţi ale site-ului să nu fie indexate de un motor de căutare? Pentru că acele secţiuni ale site-ului nu sunt dedicate vizitatorilor site-ului, ci sunt fişiere de configurare ori care asigură funcţionarea site-ului. Pe cale de consecinţă, dacă tot conţinutul site-ului dumneavoastră este destinat publicului, nu aveţi nevoie de un fişier robots.txt.

Sursa: scientia.ro

Citeste si articolele:

Dacă ţi-a plăcut articolul, ai ceva de completat sau ai ceva de reproşat (civilizat) la acest text, scrie un comentariu, ori pune un link pe site-ul (blogul) tău, în cazul în care vrei ca şi alţii să citească textul sau (obligatoriu) dacă ai copiat articolul parţial sau integral. După ce ai scris comentariul, acesta trebuie aprobat de administratorul site-ului, apoi va fi publicat.

2 Responses to “Cum funcționează Google (I)”

  1. Criteriile Google de indexare a unui site says:

    iunie 20th, 2014 at 15:39

    […] tocmai prin ajungerea pe prima pagină a căutărilor. Ne-am putea întreba ce criterii folosește Google pentru a ordona link-urile blogurilor sau site-urilor atunci când cineva recurge la căutarea […]

  2. Mare e grădina Internetului | A șaptea dimensiune says:

    aprilie 29th, 2019 at 7:19

    […] Cum funcționează Google (I) […]

Adauga un comentariu