Robots.txt bestand: alles wat je moet weten (handleiding)

Robots.txt bestand: alles wat je moet weten (handleiding)

Een zoekmachine optimalisatie traject bestaat uit: technische optimalisatiecontent optimalisatie en linkbuilding. Technische optimalisatie bestaat uit allerlei kleine facetten, waaronder het robots.txt bestand.

Het robots.txt bestand lijkt een minimaal onderdeel, maar heeft grote impact op de vindbaarheid van je website. 

Het robots.txt bestand bevat instructies voor de zoekmachines. Het geeft aan hoe de zoekmachines om moeten gaan met de website.

Een goede robots.txt voorkomt problemen, zoals niet geïndexeerde content en opslokking van het crawlbudget. Hoe dit precies zit, leggen wij je uit in deze blog. Uiteraard met de nodige voorbeelden.

Inhoudsopgave

  1. Wat is een robots.txt bestand?
  2. Wat is crawling?
  3. De locatie van het robots.txt bestand
  4. Hoe ziet een robots.txt bestand er uit? 
  5. Waarom is een robots.txt bestand belangrijk?
  6. Hoe stel je een robots.txt bestand op?
  7. Let op voor tegenstrijdige instructies in het robots.txt bestand
  8. Sitemap verwijzingen in je robots.txt
  9. Hoe maak ik een robots.txt bestand aan?
  10. Je robots.txt bestand testen
  11. Waar moet ik op letten bij een robots.txt bestand?
  12. Opmerkingen plaatsen in je robots.txt
  13. Veel gestelde vragen over de robots.txt
  14. Meer informatie over technische SEO

Wat is een robots.txt bestand?

Een robots.txt bestand is een tekstbestand die instructies bevat voor zoekmachines. Aan de hand van deze instructies in het robots.txt bestand weet de crawler van een zoekmachine hoe het moet om gaan met de website.

De instructies in het robots.txt bestand geven aan welke pagina's zoekmachines wel of niet mogen crawlen. Het robots.txt bestand is te zien als de handleiding van je website voor alle zoekmachines. 

Wat is crawling?  

Alle zoekmachines bezoeken je website op dagelijkse, wekelijkse of maandelijkse basis. Dit wordt ook wel crawlen genoemd.

Door crawling wordt je opgenomen in de zoekresultaten. Het crawl proces start bij het robots.txt bestand.

De locatie van het robots.txt bestand

Het robots.txt bestand wordt geplaatst in de hoofdmap van de website, ook wel de root genoemd. Wanneer een crawler je website bezoekt, bezoekt deze eerst het robots.txt bestand. Wanneer er geen robots.txt bestand aanwezig is, crawlt de crawler de gehele website zelf. 

Hoe ziet een robots.txt bestand er uit? 

Een robots.txt bestand is een tekstbestand met instructies. Op elke regel wordt één instructie geplaatst. Je vindt het robots.txt bestand door /robots.txt toe te voegen aan jouw hoofddomein.

Het robots.txt bestand van onze website vind je via de URL: https://smartranking.nl/robots.txt. Je ziet hier onze robots.txt, waarin vier regels met instructies staan, waardoor de crawler weet hoe het moet omgaan met onze website. Hieronder staat een ander voorbeeld van een robots.txt bestand.

Een robots.txt bestand

Voorbeeld van een robots.txt bestand.

Waarom is een robots.txt bestand belangrijk? 

Wanneer je geen robots.txt bestand hebt, crawlt de crawler de gehele website. Dit betekent dat ook onnodige pagina's, zoals de inlogpagina van de website, worden gecrawld. Deze hoeven niet in de zoekresultaten te belanden en slokken het crawlbudget op. 

Het robots.txt bestand geeft instructies aan de zoekmachines en staat aan de basis van het crawl proces. In de meeste gevallen worden de instructies ook opgevolgd, waardoor dit bestand belangrijk is.

De zoekmachine kan jouw robots.txt bestand negeren. Dit zal het geval zijn wanneer zoekmachines denken dat de inhoud irrelevant is. Dit komt niet vaak voor.

Wat is het crawlbudget?

Het crawlbudget is de tijd die een crawler neemt voor het bezoeken van je website. Hoe meer crawlbudget, een crawler voor jouw website heeft, hoe meer pagina's deze bezoekt.

Grote websites, zoals nieuwssites, krijgen over het algemeen meer crawlbudget, dan een kleine website met pagina's die niet vaak worden aangepast.

Hoe lang de crawler er precies over doet, weet je niet van te voren. Daarom is het slim om er voor te zorgen dat onnodige pagina's, zoals een inlogpagina, niet worden gecrawld. 

Hoe stel je een robots.txt bestand op?

Vrijwel alle grote zoekmachines, zoals Google en Bing, maken gebruik van de robots.txt en hebben ook richtlijnen opgesteld. Deze richtlijnen geven aan hoe je de instructies moet opstellen.

Wanneer je de instructies incorrect opneemt in het robots.txt bestand raken zoekmachines in de war. De belangrijkste instructies zijn:

  • Het gebruik van User-agent
  • Het gebruik van Disallow en Allow
  • Het gebruik van Wildcards.

1. User-agent - Welke zoekmachines mogen de website crawlen? 

Het robots.txt bestand start vaak met User-agent: *Deze User-agent instructie geeft aan voor welke zoekmachine de instructie is bedoeld. Wanneer je de instructie User-agent: * gebruikt, geef je aan dat de instructies gelden voor alle zoekmachines. 

Daarnaast is het mogelijk specifiek een zoekmachine instructies te geven. Elke zoekmachine heeft zijn eigen naam. Zo heet de User-agent van Google GoogleBot en van Bing BingBot.

Heb je een instructie voor één specifieke zoekmachine, dan benoem je dit ook. Heb je bijvoorbeeld een instructie specifiek voor Google, dan gebruik je User-agent: Googlebot. Wanneer je dit gebruikt, zal Google de instructies daaronder ook opvolgen en andere zoekmachines de instructies negeren. 

Dit betekent ook dat je eerst alle zoekmachines instructies kunt geven en later specifiek voor één zoekmachine. Je start eerst met de instructies aan alle zoekmachines en geeft verderop in het robots.txt bestand instructies voor een specifieke zoekmachine.

Dit zit er bijvoorbeeld zo uit:

User-agent: *
Disallow: /over/
Disallow: /over/smartranking/


User-agent: Googlebot
DIsallow: /over/smartranking/

2. Disallow en Allow - Toegang geven of verbieden. 

Disallow en Allow zijn instructies waarmee je de zoekmachine juist wel of geen toegang geeft tot bepaalde delen van de website. Met een disallow instructie verbied je toegang tot een pagina en met de allow instructie geef je juist toegang tot een pagina.

Dit ziet er bijvoorbeeld zo uit in je robots.txt:

User-agent: * 
Disallow: /wp-admin/ 
Sitemap: https://smartranking.nl/sitemap.xml


In het bovenstaande voorbeeld sluiten wij door middel van Disallow: /wp-admin/ de back-end van de website uit. 

Vrijwel iedereen weet dat /wp-admin/ de inlogpagina is van een Wordpress website. Deze hoeft niet te worden gecrawld.

Met de instructie: Disallow verbied je de zoekmachine toegang tot deze pagina. Hierdoor wordt de pagina niet gecrawld. Tenzij een link naar deze pagina vindbaar is op de website zelf.

Dan zal de crawler alsnog de pagina vinden. Sluit dus niet alleen de pagina uit via de robots.txt, maar zorg ook dat deze niet zichtbaar aanwezig is op de website. 

Uiteraard komt het ook voor dat je specifieke toegang wilt geven tot een pagina. Gebruik dan de Allow instructie.

Wil je bijvoorbeeld zeker weten dat jouw blog wordt gecrawld? Plaats dan simpelweg: Allow: /blog/ in het robots.txt bestand. 

3. Wildcards - Instructies voor meerdere pagina's

De instructie User-agent: * bevat een wildcard en daarmee geeft het een instructie aan meerdere zoekmachines.

Een wildcard is een symbool die een karakter of reeks karakters vervangt, waardoor je niet voor elke URL of crawler een instructie hoeft op te stellen.

Met de wildcard maak je gebruik parameters, karakters of herhaling uit de URL. Bijvoorbeeld een karakter, zoals ?, die voorkomt in meerdere URL's.

Er zijn verschillende soorten wildcards, die je kunt gebruiken in het robots.txt bestand. 

Wildcard: * 

Met een asterisk als wildcard geef je aan dat elke parameter, karakter of herhaling hiermee vervangen kan worden. Alles wat in de plaats van de wildcard geplaatst kan worden valt onder de instructie die je opstelt. Bijvoorbeeld:

User-agent: * 
Disallow: /*? 

Dit betekent dat de zoekmachine elke URL waarin iets voor een vraagteken komt niet hoeft te crawlen.

Wildcard: $

Het dollarteken geeft een einde van een URL aan. De wildcard $ wordt vaak gebruikt voor bestanden op de website, zoals PDF-bestanden of PHP-bestanden. Bijvoorbeeld:

User-agent: * 
Disallow: /*.pdf$

Let op voor tegenstrijdige instructies in het robots.txt bestand

De instructies in het robots.txt bestand mogen niet tegenstrijdig zijn. Wanneer zich dit voordoet, dan zal de zoekmachine in de war raken. Tegenstrijdige instructies kunnen ontstaan door verkeerd gebruik van Wildcards of Allow en Disallow instructies door elkaar heen gebruiken. 

Voorbeeld van tegenstrijdige richtlijnen

User-agent: * 
Allow: /blog/
Disallow: /*.html

In dit voorbeeld is een instructie geplaatst om sowieso de /blog/ te crawlen, maar de zoekmachine krijgt voor de hele website geen toegang tot alle URL's met /.html. Als de URL dus /blog.html bevat, wordt de crawler tegengehouden. De crawler zal hiervan in de war raken. 

Sitemap verwijzingen in je robots.txt

Naast deze instructies, is het robots.txt bestand de plek voor een verwijzing van je sitemap. Hiermee laat je weten aan de crawler waar zij de sitemap kunnen vinden. In een sitemap staan alle URL's van je website. Een voorbeeld van een sitemap vind je hier.

Plaats altijd een absolute URL (een volledig uitgeschreven URL) naar je sitemap. Wij adviseren ook om de sitemap in te zenden in Google Search Console of Bing Webmaster Tools, zodat je er zeker van bent dat de zoekmachine de sitemap kan indexeren.

Voorbeeld van een sitemap verwijzing

User-agent: *
Sitemap: https://smartranking.nl/sitemap.xml

Meerdere sitemap verwijzingen in het robots.txt bestand 

Het is ook mogelijk om meerdere sitemap verwijzingen in je robots.txt op te nemen. Dit doe je wanneer je verschillende domeinen hebt voor je website of verschillende sitemaps gebruikt.

De bekende Wordpress plugin Yoast maakt sitemaps aan voor blog, pagina's, categorieën, auteurs en tags. Links naar deze verschillende sitemaps staan dus idealiter in je robots.txt.

Ook kan het zijn dat je een blog op een subdomein host, zoals in het onderstaande voorbeeld. 

Verwijzingen naar meerdere sitemaps is mogelijk, zolang je dit maar correct doet. Op één regel noteer je één sitemap in de robots.txt en noteer deze onder elkaar. Zo zal de crawler de sitemap herkennen en bezoeken. 

Voorbeeld van meerdere XML sitemaps

User-agent: *
Sitemap: https://smartranking.nl/sitemap.xml
Sitemap: https://blog.smartranking.nl/sitemap.xml

Sitemap: https://diensten.smartranking.nl/sitemap.xml

Hoe maak ik een robots.txt bestand aan? 

Het aanmaken van een robots.txt bestand is niet moeilijk. Binnen Wordpress kun je gebruik maken van diverse plugins, waaronder Yoast. Deze genereert voor jou een robots.txt, maar ook een sitemap. Waarna je de sitemap ook kunt plaatsen in de robots.txt. 

Wil je het robots.txt bestand zelf maken, dan kan dit met een HTML Editor of een FTP programma. Waar je het robots.txt in aanmaakt. In het robots.txt bestand zet je alle instructies die jij wilt voor je website. Is het bestand klaar, dan upload je dit naar de root van de website. 

Je robots.txt bestand testen

Uiteraard wil je dat je robots.txt klopt en niet conflicterende instructies geeft aan de zoekmachines. Daarom is het slim om de robots.txt te checken met een test, wanneer deze online staat.

Met Google Search Console controleer je gemakkelijk of de robots.txt klopt. Wanneer je je website hebt gekoppeld, ga je in Google Search Console naar "Crawlen" en klik je op "robots.txt-tester". De eventuele fouten worden vervolgens door Google aangegeven.

Waar moet ik op letten bij een robots.txt bestand?

Elke zoekmachine gaat anders om met de robots.txt. Daarom zijn er aantal punten waar je op moet letten.

1. Volgorde van de instructies in de robots.txt 

In principe wordt altijd de eerste instructies in de robots.txt opgevolgd en daarna van boven naar beneden de andere instructies. Toch zijn er uitzonderingen, zo kijken Google en Bing meer naar specifieke instructies, waarbij de langste instructie als eerste wordt opgevolgd. Bijvoorbeeld:

User-agent: *
Disallow: /over/
Allow: /over/smartranking/ 

In het bovenstaande voorbeeld zal de Allow instructie eerder worden opgevolgd, dan de Disallow. Immers, de redenatie is hoe langer de instructie, hoe specifieker. Wil je meerdere zoekmachines apart instructies geven in de robots.txt, dan moet je op de volgorde letten. 

2. Wees specifiek

Voor alle instructies geldt dat je zo specifiek mogelijk moet zijn. Alleen op die manier geef je correcte en goede instructies aan de zoekmachines.

Met Disallow verbied je simpelweg toegang tot delen van de website en met Allow waar je wel toegang toe wil geven.

Gebruik deze instructies niet door elkaar en stel ze zo specifiek mogelijk op. Daarmee voorkom je conflicterende instructies. 

3. Pas op voor conflicterende instructies 

Gebruik geen specifieke instructies en wildcards door elkaar heen. Een ander probleem is het geven van instructies voor alle zoekmachines en daarna instructies voor specifieke zoekmachines. Bijvoorbeeld:

User-agent: *
Disallow: /over/
Disallow: /over/smartranking/


User-agent: Googlebot
Allow: /over/

In dit bovenstaande voorbeeld krijgen alle zoekmachines geen toegang tot /over/ en /over/smartranking/, maar GoogleBot wordt later geïnstrueerd om juist wel de pagina met /over/ te bezoeken. Dit is conflicterend voor Google en zal in de war raken van deze instructies. 

4. Voor elk domein een aparte robots.txt 

Voor elk domein moet je een aparte robots.txt aanmaken en plaatsen. Mocht je een .com en .nl versie hebben, plaats dan ook op domein een robots.txt bestand. Dit geldt ook voor subdomeinen.

5. Google Search Console & robots.txt 

In Google Search Console geef je aan hoe Google met jouw website om moet gaan. Dit doe je ook in de robots.txt.

Mochten deze instructies van elkaar verschillen en daardoor dus met elkaar conflicteren, dan kiest Google voor de instructies van Google Search Console.

Controleer altijd wat je hebt vermeld in Google Search Console en wat je vermeld in de robots.txt.

6. Noindex tags

Met een noindex tag geef je gemakkelijk aan een crawler aan dat de URL niet geïndexeerd hoeft te worden. Google waarschuwt deze tag niet te gebruiken bij URL's die je opneemt in de robots.txt.

Waarom dit zo is, vertelt Google ons niet. We raden je aan om deze waarschuwing op te volgen. 

7. Maximaal 500 kb

Google geeft aan een robots.txt van maximaal 500 KB te ondersteunen. Alle inhoud van de robots.txt na 500 KB wordt genegeerd. Welke richtlijnen andere zoekmachines hanteren hiervoor is onduidelijk. 

8. Hoofdlettergevoelig

Een URL is hoofdlettergevoelig en robots.txt ook. Gebruik daarom geen hoofdletters in de bestandsnaam. 

Opmerkingen plaatsen in je robots.txt

Wanneer je opmerkingen in je robots.txt bestand plaatst, gebruik je hiervoor de hashtag. Opmerkingen plaats je om aan te geven waarvoor de instructie dient. Zoekmachines gebruiken deze opmerkingen niet, dus deze zijn bedoeld voor je collega's en jezelf.

Voorbeeld van opmerkingen

# Alle user-agents moeten deze sitemaps kunnen crawlen
User-agent: *
# Opsomming van onze sitemaps, nieuwe sitemaps moeten hier ook worden toegevoegd

Sitemap: https://smartranking.nl/sitemap.xml
Sitemap: https://blog.smartranking.nl/sitemap.xml

Sitemap: https://diensten.smartranking.nl/sitemap.xml

Veel gestelde vragen over de robots.txt 

1. Voorkomt een robots.txt dat bepaalde URL's in de zoekresultaten belanden? 

Wanneer een pagina de tag <meta name="robots" content="index, follow"> bevat, maar de crawler geen toegang krijgt via de robots.txt, wordt de URL alsnog geïndexeerd.

Een robots.txt geeft geen garantie dat de pagina's niet in de zoekresultaten belanden. Toch zijn instructies in de robots.txt wel belangrijke richtlijnen waar zoekmachines zich in de meeste gevallen aan houden.

Tip: wil je de URL verwijderen uit de zoekresultaten? Dat kan via Google Search Console. Let wel op dat hier de URL tijdelijk uit de zoekresultaten verwijderd. Iedere 90 dagen moet je terug komen om deze handmatig te verwijderen uit de zoekresultaten. 

2. Welke zoekmachines maken gebruik van de robots.txt?

Vrijwel alle grote zoekmachines maken gebruik van de robots.txt. Dit zijn onder meer Google, Bing, Yahoo, DuckDuckGo, Yandex en Baidu. Een robots.txt bestand is dus ook een belangrijk onderdeel van internationale SEO.

3. Wat is crawl-delay in het robots.txt bestand? 

Het is mogelijk om de instructie crawl-delay te geven aan de zoekmachines in het robots.txt bestand. Dit voorkomt dat de serves overbelast worden door de verzoeken.

Zoekmachines kunnen de server overbelasten en dan is het toevoegen van deze instructie verstandig. Uiteindelijk zul je toch een beter hosting platform moeten zoeken voor je website, want de crawl-delay instructie is slechts een tijdelijke oplossing.  

Meer informatie over technische SEO

Wil je meer weten over technische optimalisatie, zoals het robots.txt bestand? Vraag dan een gratis SEO consult bij ons aan of lees hier meer.

SmartRankers

SAMEN MEER BEREIKEN?

Wij drinken graag een warme of koude (én na 4 uur een alcoholische) versnapering met jou! Laat je contactgegevens achter en we bellen je terug om een afspraak in te plannen.

Heresingel 18A, Groningen