html-Dokumente sind in der Regel die bessere Wahl
Gründe für das Entfernen von PDF-Dateien
Crawling von PDF-Dateien verhindern
Das Crawling ist die Grundvoraussetzung für die Indexierung. Um zu verhindern, dass neu veröffentlichte PDFs oder gerade entfernte PDFs wieder im Google Index auftauchen, macht ein Eintrag in der robots.txt Sinn.
Das Sperren der PDF-Dateien per robots.txt ist nur dann sinnvoll, wenn bis dato noch keine PDF-Dateien auf der Website vorhanden sind und eine mögliche Indexierung der PDFs präventiv verhindert werden soll.
Soll nur ein bestimmtes PDF vom Crawling ausgeschlossen werden, platzierst du folgende Regel in der robots.txt:
User-agent: *
Disallow: /dateiname.pdf
Um PDFs generell vom Crawling auszuschließen gibt es zwei Wege. Entweder du speicherst alle PDFs in einem eigenen Verzeichnis (z.B. /pdf/) und ergänzt folgenden Befehl in der robots.txt:
User-agent: *
Disallow: /pdf/
Oder du schließt PDF-Formate generell vom Crawling aus:
User-agent: Googlebot
Disallow: /*.pdf
Wenn die Website schon PDF-Dateien enthält und diese bereits von Google indexiert wurden, sollten die PDF-Dateien im Nachgang auf keinen Fall in der robots.txt gesperrt werden. Das Sperren verhindert zwar, dass Google auf die PDF-Dateien zugreifen kann, bedeutet gleichzeitig aber nicht, dass diese dann auch aus dem Index entfernt werden. Stattdessen sollte hier das http Canonical Tag oder das X-Robots-Tag verwendet werden.
Welche Möglichkeiten gibt es, um PDF-Dateien und -Seiten aus dem Google Index zu entfernen?
HTTP Header Canonical ist nur dann sinnvoll, wenn keine Links vorhanden sind
Das Verwenden des X-Robots-Tags für das Entfernen von PDF-Dateien im Bulk-Verfahren
Die einfachste Methode, um zu vermeiden, dass PDF-Dokumente in den Suchergebnissen angezeigt werden, ist das Hinzufügen eines X-Robots-Tags „noindex“ im HTTP-Header, mit dem die Datei bereitgestellt wird. Das kann unter anderem wie folgt aussehen:
x-robots: noindex
x-robots: noindex, nofollow
Das Tag sorgt dafür, dass der Crawler die Seite zunächst herunterlädt, um dann dort das Tag zu finden. Hier kann dann durch das „noindex“-Attribut verhindert werden, dass ein Eintrag im Google-Index angelegt wird.
Um das X-Robots-Tag „noindex“ auf alle PDF-Dateien anwenden zu können, muss ein Zugriff auf die .htaccess-Datei möglich sein und diese bearbeitet werden können. Dann kannst du folgenden Befehl verwenden, um alle PDF-Dateien einer Website von der Indexierung auszuschließen:
header set x-robots-tag: noindex
<\Filesmatch>
Wenn nur eine einzelne PDF-Datei nicht indexiert werden soll, dann kannst du das Folgende Snippet im HTTP-Header benutzen:
header set x-robots-tag: noindex
<\Files>
Sollte die Datei bereits indexiert worden sein, wird sie mit der Zeit entfernt, wenn das X-Robot-Tag mit der Anweisung „noindex“ verwendet wurde. Für eine schnellere Entfernung kannst du außerdem das Tool in der Google Search Console verwenden. Wichtig ist auch, dass im Nachgang in jedem Fall eine eigene Sitemap eingereicht und eine html-Sitemap mit allen betroffenen PDF-Dateien erstellt wird. Diese müssen dann auf „noindex, follow“ gesetzt und am besten im Footer verlinkt werden.