Crawling und Indexierung von PDF-Dateien verhindern und aus dem Google-Index löschen

von Aufgesang Team | 28. Jan 2022 | SEO

Lesedauer: 5 Minuten

Immer wieder kommt es vor, dass man Inhalte der eigenen Website in den Google Suchergebnissen nicht mehr sehen will, sei es aufgrund veralteter Informationen oder eines bestehenden 404-Fehlers. Aber wie kannst du Inhalte deiner Website von der Indexierung ausschließen oder aus den Suchergebnissen löschen? Das beleuchten wir in diesem Beitrag genauer, insbesondere in Hinblick auf das Datei-Format PDF.

html-Dokumente sind in der Regel die bessere Wahl

Generell solltest du dich immer fragen, ob ein PDF-Format sinnvoll ist – oder ob deine Wahl nicht eher auf ein html-Dokument fallen sollte. PDF-Dateien werden in der Regel automatisch im Acrobat Reader geöffnet, was dazu führt, dass der Nutzer erst gar nicht auf eine Website gelangt oder sie verlässt. Dadurch wird der Zugang zur Navigation und möglichen Conversions verhindert. Es gibt nur wenige Fälle, in denen ein PDF-Format heute noch Sinn macht, zum Beispiel wenn man eine Checkliste zum Ausdrucken anbietet oder Dokumente, die handschriftlich signiert werden müssen. In den meisten Fällen machen das html-Format oder eine eigene Unterseite mehr Sinn. Für den Fall, dass dennoch PDFs ohne Mehrwert in den Index gelangen, haben wir nachfolgend einige Tipps parat.

Gründe für das Entfernen von PDF-Dateien

Die Gründe für das Entfernen von PDF-Dateien aus dem Google Index können vielseitig sein. So kann das Dokument beispielsweise veraltete Informationen enthalten, keinen Mehrwert für den Nutzer mehr bieten, doppelt vorhanden sein oder sogar zu einem 404-Fehler führen. Das alles sind potenzielle Gründe, um eine PDF-Datei von der Indexierung auszuschließen oder aus dem Google Index zu löschen. Zudem spart das Sperren der PDF-Datei Crawling-Budget, da so nur die wirklich wichtigen Inhalte vom Googlebot gecrawlt werden.

Crawling von PDF-Dateien verhindern

Das Crawling ist die Grundvoraussetzung für die Indexierung. Um zu verhindern, dass neu veröffentlichte PDFs oder gerade entfernte PDFs wieder im Google Index auftauchen, macht ein Eintrag in der robots.txt Sinn.

Das Sperren der PDF-Dateien per robots.txt ist nur dann sinnvoll, wenn bis dato noch keine PDF-Dateien auf der Website vorhanden sind und eine mögliche Indexierung der PDFs präventiv verhindert werden soll.

Soll nur ein bestimmtes PDF vom Crawling ausgeschlossen werden, platzierst du folgende Regel in der robots.txt:

User-agent: *

Disallow: /dateiname.pdf

Um PDFs generell vom Crawling auszuschließen gibt es zwei Wege. Entweder du speicherst alle PDFs in einem eigenen Verzeichnis (z.B. /pdf/) und ergänzt folgenden Befehl in der robots.txt:

User-agent: *

Disallow: /pdf/

Oder du schließt PDF-Formate generell vom Crawling aus:

User-agent: Googlebot

Disallow: /*.pdf

Wenn die Website schon PDF-Dateien enthält und diese bereits von Google indexiert wurden, sollten die PDF-Dateien im Nachgang auf keinen Fall in der robots.txt gesperrt werden. Das Sperren verhindert zwar, dass Google auf die PDF-Dateien zugreifen kann, bedeutet gleichzeitig aber nicht, dass diese dann auch aus dem Index entfernt werden. Stattdessen sollte hier das http Canonical Tag oder das X-Robots-Tag verwendet werden.

Welche Möglichkeiten gibt es, um PDF-Dateien und -Seiten aus dem Google Index zu entfernen?

Wenn eine Seite aus dem Google Index entfernt werden soll, kann normalerweise das Meta-Robots-Tag „noindex“ zum Abschnitt der Website hinzugefügt werden. Sobald das erledigt ist, crawlt Google die Seite erneut, erkennt das „noindex“-Tag und entfernt die Seite schließlich aus dem Index. Dieser Prozess kann in der Google Search Console beschleunigt werden. Diese Vorgehensweise eignet sich hervorragend für Websites, funktioniert aber nicht für Datei-Typen wie Word-Dokumente, PDF-Dateien oder Bilder. Das Problem besteht darin, dass zuvor genannte Dateien keine html-Website sind und somit keinen Abschnitt enthalten, der entsprechend bearbeitet werden könnte. Um PDF-Dateien von der Indexierung auszuschließen und aus dem Google Index zu entfernen gibt es mehrere Möglichkeiten, auf die wir im Folgenden näher eingehen möchten.

HTTP Header Canonical ist nur dann sinnvoll, wenn keine Links vorhanden sind

Sobald eine PDF-Datei eingehende oder ausgehende Links enthält, sollte von einer Deindexierung des Dokumentes abgesehen werden. Stattdessen kannst du ein Canonical-Tag in den HTTP-Header integrieren. Gibt es auch eine html-Version der PDF-Datei oder eine Website mit Downloadmöglichkeit für das PDF-Dokument, eignet sich diese Seite zum Kanonisieren. Diese Strategie trägt dazu bei, dass der Verlust von Link Juice möglichst geringgehalten wird, indem dieser auf ein html-Äquivalent übertragen wird. Das Canonical-Tag garantiert zwar nicht, dass das PDF aus dem Google Index entfernt wird, in den meisten Fällen führt es aber dazu, dass das Dokument aus dem Index verschwindet. Sofern aus rechtlichen Gründen keine sofortige Entfernung der PDF-Datei erforderlich ist, kannst du zunächst diese „softe“ Variante versuchen.

Das Verwenden des X-Robots-Tags für das Entfernen von PDF-Dateien im Bulk-Verfahren

Die einfachste Methode, um zu vermeiden, dass PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Das kann unter anderem wie folgt aussehen:

x-robots: noindex

x-robots: noindex, nofollow

Das Tag sorgt dafür, dass der Crawler die Seite zunächst herunterlädt, um dann dort das Tag zu finden. Hier kann dann durch das „noindex“-Attribut verhindert werden, dass ein Eintrag im Google-Index angelegt wird.

Um das X-Robots-Tag „noindex“ auf alle PDF-Dateien anwenden zu können, muss ein Zugriff auf die .htaccess-Datei möglich sein und diese bearbeitet werden können. Dann kannst du folgenden Befehl verwenden, um alle PDF-Dateien einer Website von der Indexierung auszuschließen:

header set x-robots-tag: noindex

<\Filesmatch>

Wenn nur eine einzelne PDF-Datei nicht indexiert werden soll, dann kannst du das Folgende Snippet im HTTP-Header benutzen:

header set x-robots-tag: noindex

<\Files>

Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn das X-Robot-Tag mit der Anweisung „noindex“ verwendet wurde. Für eine schnellere Entfernung kannst du außerdem das Tool in der Google Search Console verwenden. Wichtig ist auch, dass im Nachgang in jedem Fall eine eigene Sitemap eingereicht und eine html-Sitemap mit allen betroffenen PDF-Dateien erstellt wird. Diese müssen dann auf „noindex, follow“ gesetzt und am besten im Footer verlinkt werden.

PDF-Dateien erfolgreich aus dem Google Index löschen

Das Entfernen von PDF-Dateien aus dem Google Index ist also über mehrere Wege möglich. Welcher dabei der richtige ist, hängt immer davon ab, ob PDF-Dateien bereits indexiert wurden und ob man nur einzelne Dateien oder alle PDF-Dateien von der Indexierung ausschließen möchte.

Wenn dir dieser Artikel gefällt, dann teile ihn bitte!