Programare

Cum să configurați corect Robots.txt pentru site-ul dvs.

Dacă rulați un site web 10 moduri de a crea un site mic și simplu, fără a Overkill 10 moduri de a crea un site mic și simplu, fără Overkill WordPress poate fi o overkill. Pe măsură ce aceste alte servicii excelente dovedesc, WordPress nu este totul și se încheie toate crearea de site-uri web. Dacă doriți soluții mai simple, există o varietate de la care să alegeți. Citiți mai multe, probabil ați auzit despre un fișier robots.txt (sau “standard de excludere a roboților”). Indiferent dacă aveți sau nu, este timpul să aflați despre acest lucru, deoarece acest fișier text simplu este o parte crucială a site-ului dvs. Ar putea părea nesemnificativ, dar s-ar putea să fiți surprins de cât de important este.

Să aruncăm o privire la ceea ce este un fișier robots.txt, ce face și cum să îl configurați corect pentru site-ul dvs..

Ce este un fișier robots.txt?

Pentru a înțelege cum funcționează un fișier robots.txt, trebuie să știți un pic despre motoarele de căutare Cum funcționează motoarele de căutare? Cum funcționează motoarele de căutare? Pentru mulți oameni, Google este internetul. Este, probabil, cea mai importantă invenție de la Internet în sine. Și în timp ce motoarele de căutare s-au schimbat foarte mult de atunci, principiile care stau la baza sunt încă la fel. Citeste mai mult . Versiunea scurtă este că trimit “crawler,” care sunt programe care curăță internetul pentru informare. Apoi stochează o parte din acele informații, astfel încât să-i poată direcționa pe oameni mai târziu.

Aceste crawlere, de asemenea cunoscute sub numele de “roboții” sau “păianjeni,” găsi pagini de la miliarde de site-uri web. Motoarele de căutare le oferă direcții în care să meargă, dar site-urile individuale pot, de asemenea, să comunice cu roboții și să le spună paginile pe care ar trebui să le privească.

De cele mai multe ori, ei fac de fapt opusul, spunându-le care pagini nu ar trebui să te uiți la. Lucruri precum pagini administrative, backend-uri, pagini de categorii și etichete și alte lucruri pe care proprietarii de site-uri nu le doresc să fie afișate în motoarele de căutare. Aceste pagini sunt încă vizibile utilizatorilor și sunt accesibile oricui are permisiune (adesea toată lumea).

Dar spunând acelor paianjeni să nu indexeze câteva pagini, fișierul robots.txt îi face pe toți o favoare. Dacă ați căutat “A te folosi de” pe un motor de căutare, doriți ca paginile noastre administrative să apară în topul clasamentului? Nu. Nimeni nu ar face nimic, așa că le spunem motoarelor de căutare să nu le afișeze. De asemenea, acesta poate fi utilizat pentru a menține motoarele de căutare fără a verifica paginile care ar putea să nu le ajute să clasifice site-ul în rezultatele căutării.

Pe scurt, robots.txt le spune crawlerilor web ce să facă.

Crawlerele pot ignora robots.txt?

Crawlerele ignoră vreodată fișierele robots.txt? Da. De fapt, multe crawlere do ignora. În general, totuși, aceste crawlere nu provin de la motoare de căutare de renume. Acestea sunt de la spammers, harvesters de e-mail, și alte tipuri de automate de roboți care navighează pe internet. Este important să aveți în vedere acest lucru - folosind standardul de excludere a robotului pentru a le spune bots să nu fie o măsură eficientă de securitate. De fapt, unii bots ar putea start cu paginile pe care îi spuneți să nu le vadă.

Motoarele de căutare vor face totuși așa cum spune fișierul robots.txt atâta timp cât este formatat corect.

Cum se scrie un fișier robots.txt

Există câteva părți diferite care intră într-un fișier standard de excludere a robotului. Le voi sparge fiecare în mod individual aici.

Declarația agentului de utilizator

Înainte de a spune unui bot care pagini nu ar trebui să se uite la el, trebuie să specificați cu care bot vorbești. De cele mai multe ori, veți folosi o declarație simplă “toate roboții.” Acest lucru arată astfel:

Agent utilizator: *

Asteriscul este în așteptare “toate roboții.” Cu toate acestea, puteți specifica pagini pentru anumite roboți. Pentru a face acest lucru, va trebui să știți numele botului pentru care stabiliți linii directoare pentru. Ar putea să arate astfel:

Agent de utilizator: Googlebot [listă de pagini care nu se accesează cu crawlere] Agent-utilizator: Googlebot-Image / 1.0 [listă de pagini care nu se accesează cu crawlere] Agent utilizator: Bingbot [listă de pagini care nu se accesează cu crawlere]

Si asa mai departe. Dacă descoperiți un bot pe care nu doriți să-l accesați cu crawlere, puteți specifica și acest lucru.

Pentru a găsi numele agenților utilizator, consultați useragentstring.com.

Neacordarea paginilor

Aceasta este partea principală a fișierului dvs. de excludere a robotului. Cu o declarație simplă, îi spuneți unui bot sau unui grup de roboți să nu acceseze cu crawlere anumite pagini. Sintaxa este ușoară. Iată cum ați interzice accesul la tot ce există în “admin” directorul site-ului dvs.:

Dezactivați: / admin /

Această linie va ține robotii să acceseze cu crawlere site-ul dvs. de pe site-ul dvs. /admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html și orice altceva care se încadrează în directorul admin.

Pentru a interzice o singură pagină, specificați-o în linia de interzicere:

Nu permiteți: /public/exception.html

Acum “excepție” pagina nu va fi trasată, ci orice altceva în “public” dosarul va.

Pentru a include mai multe directoare sau pagini, trebuie doar să le listați pe liniile următoare:

Dezactivați: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

Aceste patru linii se vor aplica oricui agent de utilizator pe care l-ați specificat în partea de sus a secțiunii.

Dacă doriți să păstrați boturile în căutarea oricăror pagini de pe site-ul dvs., utilizați acest lucru:

Nu permiteți: /

Stabilirea unor standarde diferite pentru Bots

După cum am văzut mai sus, puteți specifica anumite pagini pentru roboții diferiți. Combinând cele două elemente anterioare, iată cum arată:

Agent de utilizator: googlebot Disallow: / admin / Disallow: / private / Agent-utilizator: bingbot Dezactivați: / admin / Disallow: / private /

“admin” și “privat” secțiunile vor fi invizibile pe Google și Bing, dar Google va vedea “secret” director, în timp ce Bing nu va.

Puteți specifica reguli generale pentru toate roboții prin utilizarea agentului de utilizator asterisc și apoi să dați instrucțiuni specifice și robților în secțiunile următoare.

Punându-le pe toți împreună

Cu cunoștințele de mai sus, puteți scrie un fișier robots.txt complet. Doar creați un editor de text preferat (suntem fani ai Sublime 11 Sublime Text Sugestii pentru productivitate și un flux de lucru mai rapid 11 Texte sublime pentru productivitate și un flux de lucru mai rapid Sublime Text este un editor versatil și un standard de aur pentru mulți programatori. sfaturile se concentreaza pe codarea eficienta, dar utilizatorii generali vor aprecia comenzile rapide de la tastatura. Citeste mai multe aici) si incearca sa lasati botsul sa stie ca nu sunt bineveniti in anumite parti ale site-ului tau.

Dacă doriți să vedeți un exemplu de fișier robots.txt, mergeți direct la orice site și adăugați-l “/robots.txt” până la capăt. Iată o parte din fișierul robots.txt din Bicicleta Giant:

După cum puteți vedea, există destul de puține pagini pe care nu le doresc să apară pe motoarele de căutare. De asemenea, au inclus câteva lucruri despre care nu am vorbit încă. Să aruncăm o privire la ce altceva puteți face în fișierul dvs. de excludere a robotului.

Localizarea Sitemap-ului

Dacă fișierul dvs. robots.txt spune boți unde nu pentru a merge, sitemap-ul tău face opusul Cum se creează un sitemap XML în 4 pași simpli Cum se creează un sitemap XML în 4 pași simpli Există două tipuri de sitemaps - pagina HTML sau un fișier XML. Un sitemap HTML este o singură pagină care arată vizitatorilor toate paginile de pe un site web și de obicei are legături cu acele ... Citește mai mult și îi ajută să găsească ceea ce caută. Și în timp ce motoarele de căutare probabil știu deja unde este sitemap-ul tău, nu-i face rău să le spună din nou.

Declarația pentru locația unei sitemap-uri este simplă:

Sitemap: [URL al sitemap-ului]

Asta e.

În propriul fișier robots.txt, se arată astfel:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Cam despre asta e.

Setarea unei întârzieri de accesare cu crawlere

Directiva de întârziere a accesării cu crawlere indică anumitor motoare de căutare cât de des pot indexa o pagină pe site-ul dvs. Se măsoară în câteva secunde, deși unele motoare de căutare o interpretează puțin diferit. Unii văd o întârziere a accesării cu crawlere de 5, spunându-le să aștepte cinci secunde după fiecare accesare cu crawlere pentru a iniția următorul. Alții o interpretează ca o instrucțiune de a accesa cu crawlere doar o pagină la fiecare cinci secunde.

De ce ai spune unui crawler să nu se târască cât de mult posibil? Pentru a păstra lățimea de bandă 4 moduri Windows 10 este pierderea dvs. de bandă de Internet pe Internet 4 moduri Windows 10 este pierderea dvs. de Internet lățime de bandă Este Windows 10 irosirea lățime de bandă de internet? Iată cum puteți să verificați și ce puteți face pentru ao opri. Citeste mai mult . Dacă serverul dvs. se luptă să țină pasul cu traficul, este posibil să doriți să introduceți o întârziere a accesării cu crawlere. În general, majoritatea oamenilor nu trebuie să vă faceți griji în legătură cu acest lucru. Siturile de mare trafic, cu toate acestea, ar putea dori să experimenteze un pic.

Iată cum ați setat o întârziere a accesării cu crawlere de opt secunde:

Crawl-întârziere: 8

Asta e. Nu toate motoarele de căutare vor respecta directiva. Dar nu durează să întrebi. Ca și în cazul neautorizării paginilor, puteți seta întârzieri diferite de accesare cu crawlere pentru anumite motoare de căutare.

Încărcarea fișierului dvs. robots.txt

După ce ați instalat toate instrucțiunile din fișierul dvs., le puteți încărca pe site-ul dvs. Asigurați-vă că este un fișier text simplu și are numele robots.txt. Apoi, încărcați-o pe site-ul dvs., astfel încât acesta să poată fi găsit la site-ul dvs..com/robots.txt.

Dacă utilizați un sistem de management al conținutului Cele mai populare sisteme de management al conținutului online 10 Cele mai populare sisteme de management al conținutului online Zilele paginilor HTML codate manual și mastering-ul CSS au dispărut de mult. Instalați un sistem de gestionare a conținutului (CMS) și în câteva minute puteți avea un site web pe care să-l împărtășiți cu lumea. Citește mai mult ca WordPress, probabil că există o modalitate specifică de care veți avea nevoie. Deoarece diferă în fiecare sistem de gestionare a conținutului, va trebui să consultați documentația pentru sistemul dvs..

Unele sisteme pot avea interfețe online pentru încărcarea fișierului dvs. Pentru acestea, copiați și lipiți fișierul pe care l-ați creat în pașii anteriori.

Nu uitați să actualizați fișierul

Ultimul sfat pe care-l voi da este să privesc ocazional fișierul de excludere a robotului. Site-ul dvs. se modifică și este posibil să fie necesar să faceți unele ajustări. Dacă observați o schimbare ciudată în traficul motorului dvs. de căutare, este bine să verificați și fișierul. De asemenea, este posibil ca notația standard să se schimbe în viitor. Ca orice altceva de pe site-ul dvs., merită să verificați din când în când.

Pe ce pagini excludem crawlerele de pe site-ul dvs.? Ați observat vreo diferență în traficul motorului de căutare? Împărtășiți sfaturile și comentariile de mai jos!

« Cum să copiați textul direct dintr-o casetă de dialog Windows Cum de a contracara încălcarea datelor 3 moduri simple de a vă proteja datele »