Crawling und Indexierung von PDF-Dateien verhindern und aus dem Google-Index löschen

von | 28. Jan. 2022 | SEO

Lesedauer: 5 Minuten

Lesetipps
Immer wieder kommt es vor, dass man Inhalte der eigenen Website in den Google Suchergebnissen nicht mehr sehen will, sei es aufgrund veralteter Informationen oder eines bestehenden 404-Fehlers. Aber wie kannst du Inhalte deiner Website von der Indexierung ausschließen oder aus den Suchergebnissen löschen? Das beleuchten wir in diesem Beitrag genauer, insbesondere in Hinblick auf das Datei-Format PDF.

html-Dokumente sind in der Regel die bessere Wahl

Generell solltest du dich immer fragen, ob ein PDF-Format sinnvoll ist – oder ob deine Wahl nicht eher auf ein html-Dokument fallen sollte. PDF-Dateien werden in der Regel automatisch im Acrobat Reader geöffnet, was dazu führt, dass der Nutzer erst gar nicht auf eine Website gelangt oder sie verlässt. Dadurch wird der Zugang zur Navigation und möglichen Conversions verhindert. Es gibt nur wenige Fälle, in denen ein PDF-Format heute noch Sinn macht, zum Beispiel wenn man eine Checkliste zum Ausdrucken anbietet oder Dokumente, die handschriftlich signiert werden müssen. In den meisten Fällen machen das html-Format oder eine eigene Unterseite mehr Sinn. Für den Fall, dass dennoch PDFs ohne Mehrwert in den Index gelangen, haben wir nachfolgend einige Tipps parat.

Gründe für das Entfernen von PDF-Dateien

Die Gründe für das Entfernen von PDF-Dateien aus dem Google Index können vielseitig sein. So kann das Dokument beispielsweise veraltete Informationen enthalten, keinen Mehrwert für den Nutzer mehr bieten, doppelt vorhanden sein oder sogar zu einem 404-Fehler führen. Das alles sind potenzielle Gründe, um eine PDF-Datei von der Indexierung auszuschließen oder aus dem Google Index zu löschen. Zudem spart das Sperren der PDF-Datei Crawling-Budget, da so nur die wirklich wichtigen Inhalte vom Googlebot gecrawlt werden.

Crawling von PDF-Dateien verhindern

Das Crawling ist die Grundvoraussetzung für die Indexierung. Um zu verhindern, dass neu veröffentlichte PDFs oder gerade entfernte PDFs wieder im Google Index auftauchen, macht ein Eintrag in der robots.txt Sinn.

Das Sperren der PDF-Dateien per robots.txt ist nur dann sinnvoll, wenn bis dato noch keine PDF-Dateien auf der Website vorhanden sind und eine mögliche Indexierung der PDFs präventiv verhindert werden soll.

Soll nur ein bestimmtes PDF vom Crawling ausgeschlossen werden, platzierst du folgende Regel in der robots.txt:

User-agent: *

Disallow: /dateiname.pdf

Um PDFs generell vom Crawling auszuschließen gibt es zwei Wege. Entweder du speicherst alle PDFs in einem eigenen Verzeichnis (z.B. /pdf/) und ergänzt folgenden Befehl in der robots.txt:

User-agent: *

Disallow: /pdf/

Oder du schließt PDF-Formate generell vom Crawling aus:

User-agent: Googlebot

Disallow: /*.pdf

Wenn die Website schon PDF-Dateien enthält und diese bereits von Google indexiert wurden, sollten die PDF-Dateien im Nachgang auf keinen Fall in der robots.txt gesperrt werden. Das Sperren verhindert zwar, dass Google auf die PDF-Dateien zugreifen kann, bedeutet gleichzeitig aber nicht, dass diese dann auch aus dem Index entfernt werden. Stattdessen sollte hier das http Canonical Tag oder das X-Robots-Tag verwendet werden.

Welche Möglichkeiten gibt es, um PDF-Dateien und -Seiten aus dem Google Index zu entfernen?

Wenn eine Seite aus dem Google Index entfernt werden soll, kann normalerweise das Meta-Robots-Tag „noindex“ zum Abschnitt der Website hinzugefügt werden. Sobald das erledigt ist, crawlt Google die Seite erneut, erkennt das „noindex“-Tag und entfernt die Seite schließlich aus dem Index. Dieser Prozess kann in der Google Search Console beschleunigt werden. Diese Vorgehensweise eignet sich hervorragend für Websites, funktioniert aber nicht für Datei-Typen wie Word-Dokumente, PDF-Dateien oder Bilder. Das Problem besteht darin, dass zuvor genannte Dateien keine html-Website sind und somit keinen Abschnitt enthalten, der entsprechend bearbeitet werden könnte. Um PDF-Dateien von der Indexierung auszuschließen und aus dem Google Index zu entfernen gibt es mehrere Möglichkeiten, auf die wir im Folgenden näher eingehen möchten.

HTTP Header Canonical ist nur dann sinnvoll, wenn keine Links vorhanden sind

Sobald eine PDF-Datei eingehende oder ausgehende Links enthält, sollte von einer Deindexierung des Dokumentes abgesehen werden. Stattdessen kannst du ein Canonical-Tag in den HTTP-Header integrieren. Gibt es auch eine html-Version der PDF-Datei oder eine Website mit Downloadmöglichkeit für das PDF-Dokument, eignet sich diese Seite zum Kanonisieren. Diese Strategie trägt dazu bei, dass der Verlust von Link Juice möglichst geringgehalten wird, indem dieser auf ein html-Äquivalent übertragen wird. Das Canonical-Tag garantiert zwar nicht, dass das PDF aus dem Google Index entfernt wird, in den meisten Fällen führt es aber dazu, dass das Dokument aus dem Index verschwindet. Sofern aus rechtlichen Gründen keine sofortige Entfernung der PDF-Datei erforderlich ist, kannst du zunächst diese „softe“ Variante versuchen.

Das Verwenden des X-Robots-Tags für das Entfernen von PDF-Dateien im Bulk-Verfahren

Die einfachste Methode, um zu vermeiden, dass PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Das kann unter anderem wie folgt aussehen:

x-robots: noindex

x-robots: noindex, nofollow

Das Tag sorgt dafür, dass der Crawler die Seite zunächst herunterlädt, um dann dort das Tag zu finden. Hier kann dann durch das „noindex“-Attribut verhindert werden, dass ein Eintrag im Google-Index angelegt wird.

Um das X-Robots-Tag „noindex“ auf alle PDF-Dateien anwenden zu können, muss ein Zugriff auf die .htaccess-Datei möglich sein und diese bearbeitet werden können. Dann kannst du folgenden Befehl verwenden, um alle PDF-Dateien einer Website von der Indexierung auszuschließen:

<FilesMatch „\.pdf$“>

header set x-robots-tag: noindex

<\Filesmatch>

Wenn nur eine einzelne PDF-Datei nicht indexiert werden soll, dann kannst du das Folgende Snippet im HTTP-Header benutzen:

<Files guide.pdf>

header set x-robots-tag: noindex

<\Files>

Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn das X-Robot-Tag mit der Anweisung „noindex“ verwendet wurde. Für eine schnellere Entfernung kannst du außerdem das Tool in der Google Search Console verwenden. Wichtig ist auch, dass im Nachgang in jedem Fall eine eigene Sitemap eingereicht und eine html-Sitemap mit allen betroffenen PDF-Dateien erstellt wird. Diese müssen dann auf „noindex, follow“ gesetzt und am besten im Footer verlinkt werden.

PDF-Dateien erfolgreich aus dem Google Index löschen

Das Entfernen von PDF-Dateien aus dem Google Index ist also über mehrere Wege möglich. Welcher dabei der richtige ist, hängt immer davon ab, ob PDF-Dateien bereits indexiert wurden und ob man nur einzelne Dateien oder alle PDF-Dateien von der Indexierung ausschließen möchte.

Weitere Artikel zu diesem Thema

Immer auf dem Laufenden bleiben?

Abonniere unseren Newsletter!

In unserem Newsletter halten wir dich auf dem Laufenden mit den spannendsten News, Trends und Best Practices aus der Online-Marketing-Welt!
Dieses Feld wird bei der Anzeige des Formulars ausgeblendet
https://bezaleelsolutions.com/privacypolicy/ https://okalyfleurs.com/ https://nanastotovictory.it.com https://lunatogelvictory.it.com https://togelonvictory.it.com https://situstotovictory.it.com https://protogelvictory.it.com https://tvtotovictory.it.com https://depobosvictory.it.com https://wdbosvictory.it.com https://latotovictory.it.com https://fatcai99victory.it.com https://jutawanbetvictory.it.com https://mancingduitvictory.it.com https://ligabandot.it.com https://lapak99.it.com https://bandar80.it.com https://indojp.it.com https://hokijitu.it.com https://tabichill.com/mancingduit/ https://european-dairy.com/jutawanbet https://kumpro.com/protogel https://lindatag.com/lunatogel https://leadershipeducationconference.com/togelon https://oca-animstudio.com/situstoto https://greencollarleopard.com/tvtoto https://moonbsalon.com/WDBOS https://gialongdigital.com/latoto https://aimlautism.com/FATCAI99 https://growelleducationalinstitutions.com/DEPOBOS https://test.unitedimmunitystl.com/ https://api.delx.co.za/ mancingduit nanastoto WDBOS nanastoto HOKIJITU https://snowsofthenile.com/contact-us/ https://aimlautism.com/FATCAI99/ NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU FATCAI99 LUNATOGEL MANCINGDUIT LATOTO WDBOS PROTOGEL TVTOTO TVTOTO JUTAWANBET WDBOS FATCAI99 FATCAI99 LUNATOGEL NANASTOTO LUNATOGEL PROTOGEL WDBOS JUTAWANBET DEPOBOS MANCINGDUIT WDBOS LUNATOGEL MANCINGDUIT DEPOBOS JUTAWANBET NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU FATCAI99 LATOTO MANCINGDUIT NANASTOTO LUNATOGEL LUNATOGEL BANDAR80 HOKIJITU JUTAWANBET NANASTOTO LATOTO TVTOTO LAPAK99 JUTAWANBET LATOTO JUTAWANBET NANASTOTO LATOTO TVTOTO MANCINGDUIT FATCAI99 BANDAR80 LAPAK99 JUTAWANBET NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT FATCAI99 BANDAR80 PROTOGEL HOKIJITU FATCAI99 MANCINGDUIT FATCAI99 LAPAK99 BANDAR80 LUNATOGEL MANCINGDUIT JUTAWANBET LATOTO HOKIJITU TVTOTO PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT FATCAI99 BANDAR80 LATOTO TVTOTO WDBOS PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT BANDAR80 LAPAK99 TOGELON LIGABANDOT SITUSTOTO JUTAWANBET NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT FATCAI99 BANDAR80 LAPAK99 LIGABANDOT TOGELON JUTAWANBET NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT FATCAI99 BANDAR80 LAPAK99 LIGABANDOT TOGELON SITUSTOTO LAPAK99 LIGABANDOT TOGELON SITUSTOTO JUTAWANBET LATOTO WDBOS PROTOGEL JUTAWANBET NANASTOTO PROTOGEL HOKIJITU MANCINGDUIT LUNATOGEL MANCINGDUIT FATCAI99 LAPAK99 LUNATOGEL MANCINGDUIT LATOTO TOGELON SITUSTOTO JUTAWANBET NANASTOTO LATOTO TVTOTO WDBOS DEPOBOS PROTOGEL HOKIJITU LUNATOGEL MANCINGDUIT FATCAI99 BANDAR80 LAPAK99 DEPOBOS SITUSTOTO LIGABANDOT TOGELON NANASTOTO WDBOS DEPOBOS LUNATOGEL NANASTOTO HOKIJITU MANCINGDUIT FATCAI99 LAPAK99 LIGABANDOT SITUSTOTO JUTAWANBET NANASTOTO WDBOS DEPOBOS DEPOBOS DEPOBOS LAPAK99 PROTOGEL NANASTOTO DEPOBOS LUNATOGEL MANCINGDUIT TOGELON LIGABANDOT NANASTOTO DEPOBOS NANASTOTO TVTOTO LATOTO PROTOGEL DEPOBOS NANASTOTO LUNATOGEL MANCINGDUIT DEPOBOS NANASTOTO LUNATOGEL MANCINGDUIT TVTOTO TOGELON SITUSTOTO LAPAK99 JUTAWANBET DEPOBOS NANASTOTO LUNATOGEL MANCINGDUIT TVTOTO TOGELON SITUSTOTO LAPAK99 JUTAWANBET DEPOBOS NANASTOTO TOGELON SITUSTOTO JUTAWANBET NANASTOTO TOGELON SITUSTOTO LUNATOGEL DEPOBOS NANASTOTO TOGELON SITUSTOTO JUTAWANBET LUNATOGEL TOGELON NANASTOTO JUTAWANBET TOGELON JUTAWANBET TOGELON NANASTOTO JUTAWANBET JUTAWANBET LATOTO NANASTOTO DEPOBOS LUNATOGEL TOGELON JUTAWANBET LATOTO SITUSTOTO NANASTOTO DEPOBOS TOGELON LUNATOGEL JUTAWANBET LATOTO SITUSTOTO NANASTOTO DEPOBOS TOGELON LUNATOGEL PROTOGEL JUTAWANBET LATOTO SITUSTOTO TVTOTO MANCINGDUIT NANASTOTO DEPOBOS TOGELON LUNATOGEL PROTOGEL JUTAWANBET LATOTO SITUSTOTO TVTOTO MANCINGDUIT NANASTOTO DEPOBOS TOGELON LUNATOGEL PROTOGEL JUTAWANBET NANASTOTO LUNATOGEL SITUSTOTO TOGELON PROTOGEL DEPOBOS JUTAWANBET LATOTO TVTOTO MANCINGDUIT NANASTOTO LUNATOGEL SITUSTOTO TOGELON PROTOGEL DEPOBOS JUTAWANBET TVTOTO MANCINGDUIT LAPAK99 HOKIJITU LATOTO FATCAI99 BANDAR80 PROTOGEL DEPOBOS JUTAWANBET TVTOTO MANCINGDUIT NANASTOTO TOGELON TVTOTO MANCINGDUIT NANASTOTO TOGELON TVTOTO