Der Googlebot

Was crawlt Google eigentlich die ganze Zeit?

5/5 (1)

Eine Logfile-Analyse gibt Aufschluss über den Searchbot!

Was und welche Seite und das dann noch wann auf Ihrer Webseite untersucht bzw. crawlt Google? Um hinter diese Fragen zu kommen, genügen oft Ihre Tools für Ihre Suchmaschinenoptimierung nicht und auch mit der Google Search Console kommen Sie hier nicht zu einem schlüssigen Ergebnis. Wenn Sie das alles wissen möchten, müssen Sie in die Logfiles eintauchen.

Was ist ein Crawler?

Ein Webcrawler (auch Searchbot, Spider oder Robot) bezeichnet ein Computerprogramm, das das Internet automatisiert nach bestimmten Informationen und Daten durchsucht. Diese gecrawlten Daten nutzen Suchmaschinen für die Indexierung von Webseiten nach vorgegebenen Kriterien. Auch der Crawler von Google findet und besucht Webseiten, deren verschiedensten Informationen er dann anschließend im Index speichert. Dieser Suchvorgang wiederholt sich, denn auch schon gefundene Webseiten besucht der Crawler immer wieder und schaut hier auch permanent nach Veränderungen, die dann für eine Aktualisierung des Index verantwortlich sind.

Dieser Vorgang ist aufwendig und kostet Google einiges an Ressourcen. Wenn die Signale, die Google erhält und auswertet, als unwichtig, minderwertig oder gar fehlerhaft indexiert werden, ist das schlecht für eine Webseite. Das von Google individuell festgesetzt Crawlbudget für diese Webseite sinkt und die Seite wird weniger besucht. Das bedeutet in der Folge dann ein schlechtes Ranking.  

Warum sollen Sie jetzt auf die Logfiles gehen?

Die Search Console zeigt zwar auf, wie viele Ihrer URLs Google gecrawlt hat. Welche das aber genau waren, ist nicht genau ersichtlich. Nur ein kleiner Teil kann man über den neuen Abdeckungs-Report einsehen. Für die Information, welche URLs tatsächlich gecrawlt wurden und somit wie gut also die Ranking-Voraussetzungen sind, ist mit einer Auswertung der Logfiles möglich.

Was genau ist eigentlich ein Logfile?

Unter Logfiles versteht man Dateien, die der Server einer Webseite automatisch speichert. Diese Dateien im Access Logs zeigen Ihnen jeden Hit, d. h. jede Anfrage an den Server, auch die des Googlebots. Viele Seitenaufrufe bedeuten auch eine große Datei. Aufgrund dessen löscht der Server automatisch nach ein paar Wochen diese gespeicherten Logfiles. Also müssen Sie schnell sein und in regelmäßigen Abständen Ihre Daten sichern, wenn Sie hier Auswertungen vornehmen möchten. Jede vorhandene Log-Datei entspricht einem Aufruf. Wichtig für Sie ist, dass die Datei Sie über die IP des Aufrufenden sowie über den Zeitpunkt des Aufrufs informiert. Weiterhin können Sie unter anderem auch genau den URI (Uniform Resource Identifier), also den Pfad der aufgerufenen Seite mit dem Protokoll einsehen.

Achtung DSGVO!

Auch die IP wird in den Logfiles gespeichert. Deshalb greift hier auch die DSGVO. Sie sind auf der sicheren Seite, wenn Sie in den Logfiles die IP anonymisieren.

Was bringt mir die Logfile-Analyse?

Der User Agent identifiziert den typischen Googlebot meistens mit „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“ oder sogar im Zeitalter des Mobile First mit „Googlebot Smartphone“. Doch Vorsicht! Nicht jeder User Agent „Googlebot“ ist der Crawler von Google, verlassen Sie sich nicht allein auf den User Agent!

Den Googlebot verifizieren Sie durch IPs, die mit 66.249 anfangen und ganz sicher gehen Sie, wenn Sie Vergleiche in Ihrer Google Search Console ziehen. Nun bietet es sich für die Fülle der Datenmenge an, ein Tool zur auswertung zu benutzen, in das Sie Ihre Daten einfach per Drag & Drop einfügen und hier dann die Bots der Suchmaschinen selbstständig herausgefiltert werden.

Was zeigt mir das? Was ist zu tun?

  • Sie können hier sehen, wenn Google unliebsame Parameter crawlt. Entfernen Sie diese.
  • Fehlerhafte Canonicals werden aufgedeckt und können gesperrt werden.
  • Unwichtige Seitenregionen können Sie in der robots.txt sperren und Links entfernen.
  • Wichtige Links auf „nofollow“ setzten.
  • Gecrawlte 404-Seiten sollten Sie eventuell weiterleiten.
  • Sie können 301-Weiterleitungen korrigieren.
  • Wenn statische URLs gecrawlt werden, dann können Sie den http-Header konfigurieren.
  • Sie sehen, wenn nicht alle Ihre Produkte gecrawlt werden und können das durch Linkbuilding verbessern.
  • Wichtig bei einem Relaunch: Wie sieht es hier mit unerwünschten URLs aus?

Ein Blick in die Logfiles ist auf jeden Fall sinnvoll. Wenn Sie noch am Aufbau Ihrer Seite sind, warten Sie damit ab bis Sie sinnvolle Schlüsse aus einer Auswertung ziehen können. Wenn Sie allerdings eine große Webseite oder sogar einen Online-Shop betreiben, dann lohnt sich eine Auswertung der Logfiles in jedem Fall. Sie geben ein objektives, aufschlussreiches und ehrliches Bild über die Gesundheit Ihrer Seite.  

Diesen Beitrag bewerten

2 Kommentare
  1. Search Engine Tech Blog
    Search Engine Tech Blog says:

    Der Artikel erklärt sehr gut was Google macht und warum ein Blick in die Logfiles aufschlussreich sein kann, aber es ist nicht nur der Google Bot unterwegs. Hier mal eine Liste der Top 10 Web-Crawler User-Agents die zum Teil auch in den Logfiles auftauchen könnten:

    1. Google = Googlebot
    2. Bing = Bingbot
    3. Yahoo = Slurp
    4. DuckDuckGo = DuckDuckBot
    5. Baidu = Baiduspider
    6. Yandex = YandexBot
    7. Sogou = Sogou
    8. Exalead = Exabot
    9. Facebook = facebot
    10. Alexa = ia_archiver

    Antworten

Dein Kommentar

Möchtest du mitdiskutieren?
Fühl dich frei, beizutragen!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.