Back to Question Center
0

Semalt: Cum se blochează Darodar Robots.txt

1 answers:

Fișierul Robots.txt este un fișier text tipic care conține instrucțiuni despre modul în care crawlerele web sau boturile ar trebui să acceseze cu crawlere un site. Aplicația lor este evidentă în motoarele de căutare roboți, care sunt frecvente în numeroase site-uri web optimizate. Ca parte a Protocolului de excludere a robotului (REP), fișierul robots.txt formează un aspect esențial al indexării conținutului site-ului web, precum și permițând unui server să autentifice în mod corespunzător cererile utilizatorului.

Julia Vashneva, Semalt Senior Customer Success Manager, explică faptul că legarea este un aspect al Search Engine Optimization (SEO), care presupune obținerea de trafic din alte domenii din cadrul dvs. de nișă. Pentru linkurile "urmați" pentru a transfera sucul de link-uri, este esențial să includeți un fișier robots.txt pe spațiul dvs. de găzduire a site-ului dvs. pentru a acționa ca un instructor al modului în care serverul interacționează cu site-ul dvs. Din această arhivă, instrucțiunile sunt prezente permițând sau dezactiva modul în care se comportă anumiți agenți utilizator .

Formatul de bază al unui fișier robots.txt

Un fișier robots.txt conține două linii esențiale:

Agent-utilizator: [nume utilizator-agent]

Nu permiteți: [Șirul de adrese URL nu trebuie accesat cu crawlere]

Un fișier robots.txt complet trebuie să conțină aceste două linii. Cu toate acestea, unele dintre ele pot conține mai multe linii de agenți utilizator și directive. Aceste comenzi pot conține aspecte cum ar fi permiterea, dezactivarea sau întârzierea accesării cu crawlere. Există de obicei o ruptură de linie care separă fiecare set de instrucțiuni. Fiecare dintre instrucțiunile care permit sau nu permite instrucțiunea este separată de această rupere de linie, în special pentru robotul.txt cu mai multe linii.

Exemple

De exemplu, un fișier robots.txt poate conține coduri precum:

Agent-utilizator: darodar

Dezactivați: / plugin

Nu permiteți: / API

Nu permiteți: / _comments

În acest caz, acesta este un fișier bloc robots.txt care restricționează accesarea site-ului web de către crawlerul web Darodar. În sintaxa de mai sus, codul blochează aspecte ale site-ului, cum ar fi pluginurile, API-ul și secțiunea de comentarii. Din aceste cunoștințe, este posibil să se obțină numeroase beneficii de la executarea eficace a unui fișier text al robotului. Roboți..fișierele txt pot fi capabile să efectueze numeroase funcții. De exemplu, pot fi gata să:

1. Permiteți conținutului de pe toate crawlerele web să intre într-o pagină de site web. De exemplu,

Agent-utilizator: *

Disallow:

În acest caz, întregul conținut al utilizatorilor poate fi accesat de orice crawler web care este solicitat să acceseze un site web .

2. Blocați un conținut web specific dintr-un anumit dosar. De exemplu,

Agent-utilizator: Googlebot

Dezactivați: / example-subfolder /

Această sintaxă care conține numele de utilizator Googlebot aparține Google. Aceasta restricționează botul de a accesa orice pagină web în șirul de caractere www.ourexample.com/example-subfolder/.

3. Blocați un crawler web specific dintr-o anumită pagină Web. De exemplu,

Agent-utilizator: Bingbot

Nu permiteți: /example-subfolder/blocked-page.html

Bing botul de utilizator-agent aparține crawler-urilor web Bing. Acest tip de fișier robots.txt restricționează accesarea crawlerului web Bing de la o anumită pagină cu șirul www.ourexample.com/example-subfolder/blocked-page.

Informații importante

  • Nu toți utilizatorii utilizează fișierul robts.txt. Unii utilizatori pot decide să o ignore. Majoritatea crawlerelor web includ troieni și malware
  • .
  • Pentru ca un fișier Robots.txt să fie vizibil, acesta ar trebui să fie disponibil în directorul de site-uri de nivel superior.
  • Caracterele "robots.txt" sunt sensibile la minuscule. În consecință, nu trebuie să le modificați în nici un fel, inclusiv capitalizarea unor aspecte
  • .
  • "/robots.txt" este domeniul public. Oricine poate fi capabil să găsească aceste informații când le adaugă conținutului oricărui URL. Nu trebuie să indexați detaliile esențiale sau paginile pe care doriți să le rămână private.
November 29, 2017
Semalt: Cum se blochează Darodar Robots.txt
Reply