Cum funcționează motoarele de căutare?

Cum funcționează motoarele de căutare? / Tehnologie explicată

Articol actualizat de Joel Lee pe 10/10/2017

Pentru mulți, Google este internetul. Este punctul de plecare pentru găsirea de noi site-uri, și este, fără îndoială, cea mai importantă invenție de la internet în sine. Fără motoarele de căutare, noul conținut web ar fi inaccesibil maselor.

Dar știi cum funcționează motoarele de căutare? Fiecare motor de căutare are trei funcții principale: accesarea cu crawlere (pentru a descoperi conținut), indexarea (pentru urmărirea și stocarea conținutului) și recuperarea (pentru a prelua conținut relevant când utilizatorii interoghează motorul de căutare).

Crawling

Crawlingul este locul unde începe totul: achiziționarea de date despre un site web.

Aceasta implică scanarea site-urilor și colectarea de detalii despre fiecare pagină: titluri, imagini, cuvinte cheie, alte pagini legate etc. Diferitele crawlere pot de asemenea să caute diferite detalii, cum ar fi aspectul paginilor, unde sunt plasate reclamele, dacă sunt lipite link-uri etc..

Dar cum este un site accesat cu crawlere? Un bot automat (numit a “păianjen”) vizitează pagina după pagină cât mai repede posibil, utilizând link-urile paginilor pentru a găsi unde să meargă în continuare. Chiar și în primele zile, păianjenii Google puteau citi câteva sute de pagini pe secundă. În zilele noastre, este în mii.

Când un crawler web accesează o pagină, acesta colectează fiecare legătură de pe pagină și le adaugă în lista de pagini următoare pe care să o viziteze. Se duce la următoarea pagină din listă, culeg legăturile acea pagina și se repetă. De asemenea, crawlerele web revizuiesc paginile anterioare din când în când pentru a vedea dacă s-au întâmplat schimbări.

Aceasta înseamnă că orice site care este legat de un site indexat va fi în cele din urmă accesat cu crawlere. Unele site-uri sunt accesate cu crawlere mai frecvent, iar unele sunt accesate cu crawlere la adâncimi mai mari, dar uneori un crawler poate renunța dacă ierarhia unei pagini a site-ului este prea complexă.

O modalitate de a înțelege cum funcționează un crawler web este să-ți construiești unul singur. Am scris un tutorial despre crearea unui crawler web de bază în PHP, deci verificați dacă aveți experiență de programare.

Rețineți că paginile pot fi marcate ca “noindex,” care este ca și cum ai cere motoarelor de căutare să ignore indexarea lor. Componentele neincluse în internet sunt cunoscute sub numele de “adâncime” Ce este Deep Web? Este mai important decât credeți ce este Deep Web? Este mult mai important decât crezi că webul adânc și întunericul web sună atât de înfricoșător și de furios, dar pericolele au fost exagerate. Iată ce fac de fapt și cum puteți să le accesați chiar și dvs.! Citiți mai multe și unele site-uri, precum cele găzduite în rețeaua TOR, nu pot fi indexate de motoarele de căutare. (Ce este rutare cu ceapă și ceapă) Ce este ruta ceapă, exact [MakeUseOf explică] Ce este ruta ceapă, exact [MakeUseOf explică] confidențialitatea pe Internet Anonimatul a fost una dintre cele mai mari trăsături ale Internetului în tinerețe caracteristicile sale cele mai grave, în funcție de cine vă cereți.) Lăsând la o parte problemele care izvorăsc ... Citește mai mult)

Indexarea

Indexarea este atunci când datele dintr-un crawl sunt procesate și plasate într-o bază de date.

Imaginați-vă că ați făcut o listă a tuturor cărților pe care le dețineți, editorilor, autorilor, genurilor lor, numărului de pagini etc. Crawling-ul este atunci când vă combinați fiecare carte în timp ce indexarea este atunci când le logați pe lista dvs..

Acum imaginați-vă că nu este doar o cameră plină de cărți, ci orice bibliotecă din lume. Aceasta este o versiune la scară redusă a ceea ce face Google, care stochează toate aceste date în centre de date vastă cu mii de unități de petabytes în valoare de mărimi. Dimensiuni de memorie Explicate: Gigabytes, Terabytes și Petabytes în dimensiuni de memorie contextuală Explicate: Gigabytes, Terabytes și Petabytes în context Este ușor de văzut că 500GB este mai mult de 100GB. Dar cum se compara dimensiuni diferite? Ce este un gigabyte la un terabyte? Unde se potrivește un petabyte? Să ne descurcăm! Citeste mai mult .

Iată o privire în interiorul unuia dintre centrele de date Google de căutare:

Credit de imagine: Google

Recuperare și clasare

Recuperarea este atunci când motorul de căutare procesează interogarea dvs. de căutare și returnează cele mai relevante pagini care corespund interogării dvs..

Majoritatea motoarelor de căutare se diferențiază prin metodele lor de recuperare: utilizează criterii diferite pentru a alege și alege paginile care se potrivesc cel mai bine cu ceea ce doriți să găsiți. Acesta este motivul pentru care rezultatele căutării variază între Google și Bing și de ce Wolfram Alpha este atât de unic de util 10 Utilizează Cool Wolfram Alpha Dacă citiți și scrieți în limba engleză 10 Utilizează Cool de Wolfram Alpha Dacă citiți și scrieți în limba engleză a luat mi ceva timp să-mi înfășez capul în jurul lui Wolfram Alpha și interogările pe care le utilizează pentru a scoate aceste rezultate. Trebuie să vă aruncați adânc în Wolfram Alpha pentru ao exploata cu adevărat pentru a ... Citește mai mult .

Algoritmii de clasificare verifică împotriva interogării de căutare miliarde de pagini pentru a determina relevanța fiecăruia. Companiile își păstrează algoritmii de clasificare ca secrete industriale brevetate datorită complexității lor. Un algoritm mai bun se traduce într-o experiență de căutare mai bună.

De asemenea, nu doresc ca creatorii de site-uri web să cânte sistemul și să urce în mod incorect la vârfurile rezultatelor căutării. Dacă metodologia internă a unui motor de căutare a scăpat vreodată, tot felul de oameni ar exploata cu siguranță acea cunoaștere în detrimentul cercetătorilor ca tine și cu mine.

Imagine de credit: Photovibes prin Shutterstock

Exploatarea motorului de căutare este posibil, desigur, dar nu mai este așa de ușor.

Inițial, motoarele de căutare au clasat site-uri după câte cuvinte cheie au apărut pe o pagină, ceea ce a dus la “completarea cuvintelor cheie” - umplerea paginilor cu nonsens cuvinte-cheie.

Apoi a venit conceptul de importanță a link-urilor: motoarele de căutare au evaluat site-uri cu o mulțime de linkuri de intrare, deoarece au interpretat popularitatea site-ului ca relevanță. Dar acest lucru a dus la legarea spam-urilor pe tot webul. În prezent, motoarele de căutare afișează greutăți în funcție de “autoritate” a site-ului de legătură. Motoarele de căutare dau mai multă valoare legăturilor de la o agenție guvernamentală decât legăturile dintr-un director de link-uri.

Astăzi, algoritmii de clasare sunt învăluiți în mai mult mister decât oricând înainte și “Optimizare motor de căutare” Demistificați SEO: 5 Ghiduri de optimizare pentru motoarele de căutare care vă ajută să începeți Demistificați SEO: 5 Ghiduri de optimizare pentru motoarele de căutare care vă ajută să începeți Stăpânirea motorului de căutare necesită cunoștințe, experiență și multe încercări și erori. Puteți începe să învățați fundamentele și să evitați cu ușurință greșelile SEO cu ajutorul multor ghiduri SEO disponibile pe Web. Citește mai mult nu este atât de important. Topul bunelor motoare de căutare provine acum din conținut de înaltă calitate și experiențe extraordinare ale utilizatorilor.

Ce urmează pentru motoarele de căutare?

Ah, acum există o întrebare interesantă. Raspunsul este “semantică”: sens din conținutul paginii. Puteți citi mai multe despre în prezentarea noastră asupra marcajului semantic și impactul său viitor Ce Semantic Markup este și cum va schimba Internetul pentru totdeauna [Tehnologie Explained] Ce marcaj semantic este și cum va schimba Internetul pentru totdeauna [Tehnologie Explained] Citește mai mult .

Dar aici este esența.

Acum puteți căuta “gluten-free cookies” dar rezultatele pot returna rețete pentru cookie-urile fără gluten. În schimb, puteți găsi rețete cookie regulate care spun “Această rețetă nu este lipsită de gluten.” Are cuvintele cheie potrivite, dar sensul greșit.

Cu semantica, puteți căuta rețete cookie și apoi eliminați anumite ingrediente: făină, nuci etc. Puteți, de asemenea, să restrângeți rezultatele doar la rețete cu timpi de preparare mai mici de 30 de minute și să revizuiți scorurile de 4/5 sau mai mult. Acea ar fi bine, nu? Acolo ne îndreptăm!

Încă confuz în legătură cu modul în care funcționează motoarele de căutare? Vedeți cum explică Google procesul:

Dacă ați descoperit acest lucru interesant, ați putea dori, de asemenea, să aflați cum imagine motoarele de căutare funcționează.

Credit de imagine: prykhodov / Depositphotos

Explorați mai multe despre: Google Analytics, Căutare Google, Căutarea pe Web.