Waarom een pagina uit de index verwijderen?

Er zijn een grote hoeveelheid redenen om een pagina uit de index van Google (of andere zoekmachines) te verwijderen. De meest voorkomende redenen zijn:

  • Een pagina is niet langer relevant, waardoor de gebruikers de pagina niet meer hoeven te vinden.
  • Een pagina is per ongeluk geïndexeerd, terwijl dat niet moest.
  • De staging omgeving van je website blijkt geïndexeerd te zijn.
  • De pagina is een duplicaat van een andere pagina op je website.
  • De pagina bevat content van lage kwaliteit.
  • De URL in de index is een 404 error.
  • Er is een juridische reden waarom de pagina niet (meer) in de index moet staan.

Manieren om een pagina uit de index te verwijderen

Er zijn verschillende methodes om een pagina uit de index te halen. Elke methode heeft voor- en nadelen, waarbij de meest effectieve methode het toevoegen van een noindex tag is.

Pagina verwijderen en niet redirecten

Wanneer de content niet langer relevant is voor je bezoekers, is het verwijderen van de pagina de effectiefste oplossing. De meeste CMS’en tonen vervolgens een 404 of 410 error. Wanneer Google een 404 error tegenkomt, wordt de pagina meestal binnen een aantal weken uit de index gehaald.

Vaak wordt gedacht dat een 404 error schadelijk is, maar dat is niet het geval. Als er simpelweg geen relevante URL is om naar te redirecten, moet je een 404 error tonen. Stel je wel een redirect in? Dan ziet Google dat als een soft 404 error.

Noindex tag toevoegen

Het toevoegen van een noindex tag is de effectiefste manier om URL’s uit de index te halen en ze uit de index te houden. Zoekmachines respecteren noindex tags en verwerken de wijziging van een noindex tag meestal al binnen een aantal weken. De noindex tag moet in de meta robots tag in de <head> van je pagina geplaatst worden en laten aan zoekmachines weten dat de pagina letterlijk “niet indexeerbaar” moeten zijn.

Robots.txt disallow toevoegen

Het robots.txt-bestand bevat richtlijnen voor crawlers, met daarbij ook instructies welke URL-paden van je website niet gecrawld mogen worden. Heb je complete paginagroepen die je uit de index wilt halen? Dan is het robots.txt-bestand een effectieve manier. Het nadeel van disallows in je robots.txt-bestand is dat zoekmachines ze negeren bij tegenstrijdige signalen. Daarom is dit niet de effectiefste en betrouwbaarste oplossing om URL’s uit de index te halen.

Het robots.txt-bestand is wel een goede manier om te voorkomen dat zoekmachines URL-paden crawlen en daarmee mogelijk ook indexeren. Het is dus vooral een manier om indexatie te voorkomen.

URL Removal tool gebruiken

Wil je een URL of een groep met URL’s snel uit de index verwijderen? Dan is het mogelijk om de URL Removal tool in Google Search Console te gebruiken. Via deze tool verzoek je tot het tijdelijk verwijderen van één URL of een groep met URL’s:

URL Removal tool in Google Search Console

Google haalt de URL’s vervolgens uit de index voor de duur van ongeveer 6 maanden. Wil je de URL daarna ook uit de index houden? Dan is het belangrijk om in de tussentijd een noindex tag toe te voegen. De URL Removal tool is een effectieve manier om binnen extreem korte tijd een URL uit de index te halen.

X-Robots-Tag HTTP header toevoegen

Een X-Robots-Tag HTTP header is hetzelfde als een meta robots noindex tag. Deze X-Robots-Tag HTTP header voeg je echter toe op serverniveau en kan gebruikt worden voor zowel HTML pagina’s als bestanden. Daarom is dit een effectieve manier om bijvoorbeeld een pdf-bestand uit de index van Google te halen. In de praktijk wordt de X-Robots-Tag HTTP header ook gebruikt wanneer het niet goed mogelijk is om meta robots tags aan te passen.

Belangrijk om rekening mee te houden

In de praktijk worden er geregeld conflicterende acties uitgevoerd bij het verwijderen van pagina’s uit de index. Houdt rekening met de volgende punten:

  • Gebruik geen noindex tag en robots.txt disallow door elkaar. Google kan door een robots.txt disallow de pagina niet meer bekijken, waardoor je in de zoekresultaten een melding te zien krijgt dat een omschrijving van de pagina niet getoond kan worden vanwege de robots.txt.
  • Gebruik de URL removal tool niet als permanente oplossing. De URL removal tool van Google haalt een URL voor ongeveer 6 maanden uit de index. Is de pagina daarna nog steeds indexeerbaar? Dan wordt de pagina opnieuw in de zoekresultaten opgenomen.
  • Redirect geen URL naar een irrelevante pagina. Stuur je een URL wel door naar een pagina die niet relevant is? Dan ziet Google het als een soft 404 error. Dit geeft verwarring bij zoekmachines, zorgt voor een slechte gebruikerservaring en is verspilling van het crawlbudget.
  • Sluit delen van een website uit via het robots.txt-bestand. Wil je complete URL-paden uitsluiten van het crawlen en indexeren? Dan is het mogelijk om hiervoor een disallow toe te voegen. Op deze manier ontzeg je het crawlen van gedeeltes van je website.
  • Per ongeluk je staging website in de index van Google? In dat geval is het belangrijk om een noindex tag of HTTP authenticatie toe te voegen en kun je, om hem versneld eruit te halen, de URL via de URL Removal tool van Google verwijderen.
Jarik Oosting

Dit artikel is geschreven door Jarik Oosting

Met een passie voor SEO en een ongeëvenaarde drive om resultaten te behalen, is Jarik Oosting de drijvende kracht achter SmartRanking. Met meer dan 13 jaar ervaring in het veld heeft Jarik een schat aan kennis opgebouwd, variërend van technische SEO tot complexe migraties. Als oprichter van SmartRanking heeft hij een team van gelijkgestemde SEO specialisten samengebracht die bedrijven helpen hun online potentieel te realiseren.

Zijn academische achtergrond in Informatiewetenschappen aan de Rijksuniversiteit Groningen, met een specialisatie in Natural Language Processing, geeft hem een unieke kijk op de wereld van SEO. Voor Jarik gaat het niet alleen om vindbaarheid in zoekmachines, maar om het delen van kennis en het begeleiden van bedrijven naar duurzaam online succes.

Meer over SmartRanking