Bei einem Crawler handelt es sich um ein Computerprogramm, welches Dokumente im Internet durchsucht. Um das Durchsuchen zu automatisieren, werden Crawler für sich wiederholende Aktionen programmiert.

Der Begriff Crawler stammt von dem ersten Crawler im Internet, dem Webcrawler.  Der heutzutage wohl bekannteste Webcrawler ist der Googlebot.

Wie funktioniert ein Crawler?

Ein Crawler sucht das Web nach Informationen ab, die er bestimmten Kategorien zuordnet und indiziert, damit die Informationen abrufbar sind. Die genauen Arbeitsschritte eines Crawler müssen im Vorfeld genaustens festgelegt werden. Sobald das erledigt ist, arbeitet der Bot ganz automatisch die vorher festgelegten Vorgaben ab. Die Ergebnisse eines sogenannten Crawls werden dann anschließend in einem Index angelegt und über eine Software ausgegeben. Diese Software bilden dann die Suchmaschinen, die wir alle täglich nutzen.

Nach was genau der Bot sucht, muss im Vorfeld festgelegt werden.

Die Bedeutung für die Suchmaschinenoptimierung

Durch das Crawling und die Indexierung, schaffen Crawler – wie der Googlebot – die Voraussetzungen dafür, dass Webseiten überhaupt in den Suchergebnissen ranken und ausgespielt werden können. Um auf die unterschiedlichen Seiten zu kommen, folgt der Crawler Links im WWW. Der Crawler hat pro Seite nur eine begrenzte Zeit zur Verfügung. Diese Zeit wird auch Crawl Budget genannt. Durch die Optimierung der Navigation, Webseitenstruktur oder auch der Dateigröße können Webseitenbetreiber das Crawl Budget besser auszunutzen.

Das Crawl Budget einer Seite kann sich durch viele eingehende Links und einer stark frequentierten Seite erhöhen. Wichtige Instrumente um den Crawler zu steuern, sind die robots.txt-Datei sowie die in der Google Search Console hinterlegte Sitemap. Außerdem kann in der Search Console überprüft werden, ob alle relevanten Bereiche einer Seite vom Googlebot erreicht und indexiert werden können.