Sivuston indeksoinnin estäminen robots.txt-tiedostossa: ohjeet ja suositukset

Sisällysluettelo:

Sivuston indeksoinnin estäminen robots.txt-tiedostossa: ohjeet ja suositukset
Sivuston indeksoinnin estäminen robots.txt-tiedostossa: ohjeet ja suositukset
Anonim

SEO-optimoijan työ on erittäin laajamittaista. Aloittelijoita kehotetaan kirjoittamaan optimointialgoritmi muistiin, jotta ne eivät menetä yhtään vaihetta. Muuten promootiota tuskin kutsuta onnistuneeksi, koska sivustolla tulee jatkuvasti virheitä ja virheitä, jotka on korjattava pitkään.

Yksi optimointivaiheista työskentelee robots.txt-tiedoston kanssa. Jokaisella resurssilla pitäisi olla tämä asiakirja, koska ilman sitä on vaikeampaa selviytyä optimoinnista. Se suorittaa monia toimintoja, jotka sinun on ymmärrettävä.

Robottiassistentti

Robots.txt-tiedosto on pelkkää tekstiä sisältävä asiakirja, jota voi tarkastella järjestelmän vakiomuistiossa. Sitä luodessasi sinun on asetettava koodaukseksi UTF-8, jotta se voidaan lukea oikein. Tiedosto toimii http-, https- ja FTP-protokollien kanssa.

Tämä asiakirja on robottien hakuavustaja. Jos et tiedä, jokainen järjestelmä käyttää "hämähäkkejä", jotka indeksoivat nopeasti World Wide Webin palauttaakseen asiaankuuluvia sivustoja kyselyihin.käyttäjiä. Näillä roboteilla on oltava pääsy resurssitietoihin, robots.txt toimii tähän.

Jotta hämähäkit löytävät tiensä, sinun on lähetettävä robots.txt-dokumentti juurihakemistoon. Tarkista, onko sivustolla tämä tiedosto kirjoittamalla "https://site.com.ua/robots.txt" selaimen osoiteriville. "site.com.ua" sijaan sinun on syötettävä tarvitsemasi resurssi.

Työskentely robots.txt-tiedoston kanssa
Työskentely robots.txt-tiedoston kanssa

Asiakirjan toiminnot

Robots.txt-tiedosto tarjoaa indeksointiroboteille monenlaisia tietoja. Se voi antaa osittaisen pääsyn niin, että "hämähäkki" skannaa resurssin tiettyjä elementtejä. Täysi käyttöoikeus antaa sinun tarkistaa kaikki saatavilla olevat sivut. Täysi kielto estää robotteja edes aloittamasta tarkastusta, ja he poistuvat sivustolta.

Käytyään resurssissa "hämähäkit" saavat asianmukaisen vastauksen pyyntöön. Niitä voi olla useita, kaikki riippuu robots.txt-tiedoston tiedoista. Jos skannaus onnistui esimerkiksi, robotti saa koodin 2xx.

Ehkä sivusto on uudelleenohjattu sivulta toiselle. Tässä tapauksessa robotti saa koodin 3xx. Jos tämä koodi toistuu useita kertoja, hämähäkki seuraa sitä, kunnes se saa uuden vastauksen. Vaikka hän yleensä käyttää vain 5 yritystä. Muussa tapauksessa näkyviin tulee suosittu 404-virhe.

Jos vastaus on 4xx, niin robotti saa indeksoida koko sivuston sisällön. Mutta 5xx-koodin tapauksessa tarkistus voi pysähtyä kokonaan, koska tämä tarkoittaa usein tilapäisiä palvelinvirheitä.

Etsi robotteja
Etsi robotteja

Mitä vartentarvitsetko robots.txt-tiedoston?

Kuten olet ehkä arvannut, tämä tiedosto on robottien opas sivuston juureen. Nyt sitä käytetään osittain rajoittamaan pääsyä sopimattomaan sisältöön:

  • sivut käyttäjien henkilökohtaisilla tiedoilla;
  • peilisivustot;
  • hakutulokset;
  • tietojen toimituslomakkeet jne.

Jos sivuston juuressa ei ole robots.txt-tiedostoa, robotti indeksoi kaiken sisällön. Näin ollen hakutuloksissa voi näkyä ei-toivottuja tietoja, mikä tarkoittaa, että sekä sinä että sivusto kärsivät. Jos robots.txt-dokumentissa on erityisiä ohjeita, niin "hämähäkki" seuraa niitä ja antaa resurssin omistajan haluamat tiedot.

Tiedoston kanssa työskenteleminen

Jos haluat estää sivuston indeksoinnin robots.txt-tiedoston avulla, sinun on selvitettävä, kuinka tämä tiedosto luodaan. Voit tehdä tämän noudattamalla ohjeita:

  1. Luo asiakirja Muistiossa tai Notepad++:ssa.
  2. Aseta tiedostopääte ".txt".
  3. Syötä vaaditut tiedot ja komennot.
  4. Tallenna asiakirja ja lähetä se sivuston juureen.

Kuten näet, yhdessä vaiheessa on tarpeen asettaa komentoja roboteille. Niitä on kahta tyyppiä: salliva (Salli) ja estävä (Disallow). Jotkut optimoijat voivat myös määrittää indeksointinopeuden, isännän ja linkin resurssin sivukarttaan.

Kuinka sulkea sivusto indeksoinnista
Kuinka sulkea sivusto indeksoinnista

Jotta voit aloittaa robots.txt-tiedoston käytön ja estää sivuston indeksoinnin kokonaan, sinun on myös ymmärrettävä käytetyt symbolit. Esimerkiksi asiakirjassakäytä "/", joka osoittaa, että koko sivusto on valittu. Jos "" on käytössä, tarvitaan merkkijono. Tällä tavalla on mahdollista määrittää tietty kansio, joka voidaan joko skannata tai ei.

Bottien ominaisuus

Hakukoneiden "hämähäkit" ovat erilaisia, joten jos työskentelet usealla hakukoneella kerralla, sinun on otettava tämä hetki huomioon. Heidän nimensä ovat erilaiset, mikä tarkoittaa, että jos haluat ottaa yhteyttä tiettyyn robottiin, sinun on määritettävä sen nimi: "User Agent: Yandex" (ilman lainausmerkkejä).

Jos haluat asettaa ohjeet kaikille hakukoneille, sinun on käytettävä komentoa: "User Agent: " (ilman lainausmerkkejä). Jotta voit estää sivuston indeksoinnin oikein robots.txt-tiedoston avulla, sinun on tunnettava suosittujen hakukoneiden erityispiirteet.

Tosiasia on, että suosituimmilla hakukoneilla Yandex ja Google on useita botteja. Jokaisella niistä on omat tehtävänsä. Esimerkiksi Yandex Bot ja Googlebot ovat tärkeimmät "hämähäkit", jotka indeksoivat sivustoa. Kun tiedät kaikki robotit, on helpompi hienosäätää resurssi indeksointia.

Miten robots.txt-tiedosto toimii
Miten robots.txt-tiedosto toimii

Esimerkkejä

Joten robots.txt-tiedoston avulla voit sulkea sivuston indeksoinnin yksinkertaisilla komennoilla, tärkeintä on ymmärtää, mitä tarvitset. Jos esimerkiksi haluat, että Googlebot ei lähesty resurssiasi, sinun on annettava sille asianmukainen komento. Se näyttää tältä: "User-agent: Googlebot Disallow: /" (ilman lainausmerkkejä).

Nyt meidän on ymmärrettävä, mitä tämä komento sisältää ja miten se toimii. Joten "käyttäjäagentti"käytetään suoran puhelun käyttämiseen jollekin boteista. Seuraavaksi ilmoitamme kummalle, meidän tapauksessamme se on Google. "Disallow"-komennon on aloitettava uudelta riviltä ja estettävä robottia pääsemästä sivustolle. Vinoviiva tässä tapauksessa osoittaa, että kaikki resurssin sivut on valittu komennon suorittamiseen.

Mihin robots.txt on tarkoitettu?
Mihin robots.txt on tarkoitettu?

Robots.txt-tiedostossa voit poistaa kaikkien hakukoneiden indeksoinnin käytöstä yksinkertaisella komennolla: "User-agent:Disallow: /" (ilman lainausmerkkejä). Tähtimerkki tarkoittaa tässä tapauksessa kaikkia hakurobotteja. Tyypillisesti tällaista komentoa tarvitaan, jotta sivuston indeksointi keskeytetään ja aloitetaan perusteellinen työ sen parissa, mikä muuten voisi vaikuttaa optimointiin.

Jos resurssi on suuri ja siinä on useita sivuja, se sisältää usein omistusoikeudellisia tietoja, joita ei ole toivottavaa paljastaa, tai se voi vaikuttaa negatiivisesti mainostamiseen. Tässä tapauksessa sinun on ymmärrettävä, kuinka sivu voidaan sulkea indeksoinnista robots.txt-tiedostossa.

Voit piilottaa kansion tai tiedoston. Ensimmäisessä tapauksessa sinun on aloitettava uudelleen ottamalla yhteyttä tiettyyn bottiin tai kaikkiin, joten käytämme "User-agent" -komentoa ja alla määritämme "Disallow" -komennon tietylle kansiolle. Se näyttää tältä: "Disallow: / folder /" (ilman lainausmerkkejä). Tällä tavalla piilotat koko kansion. Jos se sisältää jonkin tärkeän tiedoston, jonka haluat näyttää, sinun on kirjoitettava alla oleva komento: "Allow: /folder/file.php" (ilman lainausmerkkejä).

Tarkista tiedosto

Jos käytät robots.txt-tiedostoa sivuston sulkemiseenOnnistuit indeksoinnissa, mutta et tiedä toimivatko kaikki käskyt oikein, voit tarkistaa työn oikeellisuuden.

Ensin sinun on tarkistettava asiakirjan sijainti uudelleen. Muista, että sen on oltava yksinomaan juurikansiossa. Jos se on juurikansiossa, se ei toimi. Avaa seuraavaksi selain ja kirjoita siihen seuraava osoite: “https://sivustosi. com/robots.txt (ilman lainausmerkkejä). Jos saat virheilmoituksen selaimessasi, tiedosto ei ole siellä, missä sen pitäisi olla.

Kuinka sulkea kansio indeksoinnista
Kuinka sulkea kansio indeksoinnista

Direktiivit voidaan tarkistaa erikoistyökaluilla, joita melkein kaikki verkkovastaavat käyttävät. Puhumme Googlen ja Yandexin tuotteista. Esimerkiksi Google Search Consolessa on työkalupalkki, jossa sinun on avattava "Indeksointi" ja suoritettava sitten "Robots.txt-tiedoston tarkistustyökalu". Sinun on kopioitava kaikki tiedot asiakirjasta ikkunaan ja aloitettava skannaus. Täsmälleen sama tarkistus voidaan tehdä Yandex. Webmasterissa.

Suositeltava: