Die Bewertung der Qualität und Autorität von Websites ist entscheidend für Suchmaschinen und Nutzer gleichermaßen. In einer Zeit des stetig wachsenden Informationsangebots auch durch KI generierten Content im Internet wird es immer wichtiger, verlässliche und hochwertige Quellen zu identifizieren und von weniger vertrauenswürdigen Inhalten zu unterscheiden.
Dieser Artikel befasst sich mit dem Konzept von E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness), einem Framework, das Suchmaschinen wie Google nutzen, um die Qualität und Vertrauenswürdigkeit von Webseiten / Domains zu bewerten.
Bei der Recherche habe ich zahlreiche Research Paper und Google Patente aus der SEO Research Suite analysiert, um mehr über Methodik, Metriken und Art von Klassifikatoren herauszufinden. Ich gehe sowohl auf automatische Systeme zur Quellenauswahl und -bewertung als auch auf manuelle und heuristische Ansätze ein.
Das Ziel ist es, ein tieferes Verständnis dafür zu entwickeln, was eine Website im Hinblick auf Qualität und Autorität auszeichnet und wie diese Aspekte messbar gemacht werden können.
Auf die verwendeten Quellen verweise ich am Ende des Artikels.
Wie können Websites guter Qualität entdeckt werden?
Websites guter Qualität können auf verschiedene Weisen entdeckt werden:
Die Entdeckung von Websites guter Qualität ein mehrdimensionaler Prozess, der sowohl automatische Analysen von Inhalten und Strukturen als auch die Bewertung von Verlinkungen, inhaltlicher Korrektheit und Nutzerverhalten umfasst
Automatisierte Systeme analysieren den Inhalt und die Struktur von Websites, um wertvolle Quellen für die Wissenserweiterung zu identifizieren. Sie suchen nach neuen Informationen, einfacher Annotierbarkeit und Wirtschaftlichkeit der Datengewinnung. Gut strukturierte Websites werden dabei bevorzugt.
Zusammenfassend lässt sich sagen, dass die Entdeckung guter Websites durch eine Kombination aus automatisierter Inhaltsanalyse, Bewertung anhand verschiedener Website-Merkmale, Analyse der Verlinkungsstruktur, Bewertung der inhaltlichen Korrektheit und Berücksichtigung des Nutzerverhaltens erfolgen kann.Websites guter Qualität können durch verschiedene automatisierte und nutzerzentrierte Methoden entdeckt werden.
Wie können Websites hinsichtlich der Qualität bewertet werden?
Websites können auf vielfältige Weise hinsichtlich ihrer Qualität bewertet werden, wobei verschiedene automatisierte und nutzerzentrierte Methoden zum Einsatz kommen:
- Bewertung anhand der Nützlichkeit für die Wissenserweiterung: Systeme bewerten Webquellen danach, wie gut sie geeignet sind, Wissenslücken zu füllen. Kriterien hierbei sind der Anteil neuer Fakten, die Einfachheit der Annotation der Daten und die Wirtschaftlichkeit der Datengewinnung. MIDAS bevorzugt Quellen, die wertvolle, neue Fakten liefern und einfach zu nutzen sind. Auch die Domain-Autorität wird berücksichtigt.
- Bewertung durch Analyse von Website-Signalen und maschinellem Lernen: Hierbei werden Website-Signale identifiziert, die vorhersagend für die Qualität sind. Durch maschinelles Lernen werden Modelle erstellt, die die Beziehungen zwischen menschlichen Qualitätsbewertungen und diesen Signalen charakterisieren. Diese Modelle können dann auf unbewertete Websites angewendet werden, um kalkulierte Qualitätsbewertungen zu generieren. Diese Bewertungen können Faktoren wie die Originalität des Inhalts, das Verhältnis von Original- zu kopiertem Inhalt, das Layout der Website, Grammatik, Rechtschreibung und das Vorhandensein unangemessener Inhalte berücksichtigen.
- Bewertung basierend auf der Qualität eingehender Links: Die Qualität einer Website kann auch durch die Analyse der Qualität der Ressourcen, die auf sie verlinken, beurteilt werden. Ein Link-Qualitäts-Score für die Zielwebsite wird anhand der Qualitätsbewertungen der verlinkenden Ressourcen ermittelt. Ein niedriger Score kann zur Einstufung als minderwertig führen.
- Bewertung der inhaltlichen Korrektheit (Knowledge-Based Trust): Die Vertrauenswürdigkeit einer Website kann anhand der Korrektheit der von ihr bereitgestellten Fakten geschätzt werden. Dieser Ansatz betrachtet den Inhalt selbst anstatt nur externe Signale. Ein probabilistisches Modell kann vertrauenswürdige Quellen mit geringer Popularität identifizieren und weniger vertrauenswürdige, aber populäre Websites kennzeichnen.
- Bewertung basierend auf Nutzerverhalten: Die Dauer der Nutzerbesuche auf den Ressourcen einer Website kann als Maß für deren Qualität dienen. Durch die Berechnung statistischer Kennzahlen aus diesen Zeitmessungen kann ein Site-Qualitäts-Score ermittelt werden.
- Bewertung durch Propagation von Qualität: Die Qualitätsbewertungen können auch zwischen verlinkten oder verwandten Websites übertragen werden. Ein Qualitätsmodell kann Nachbar-Features und seiten-spezifische Features berücksichtigen.
- Vorhersage der Qualität durch Phrasenmodelle: Es ist auch möglich, die Qualität einer Website anhand von sprachlichen Mustern und Phrasen vorherzusagen. Phrasenmodelle setzen die Häufigkeit bestimmter Phrasen auf bereits bewerteten Websites mit deren Qualitätsbewertungen in Beziehung. Für neue Websites können dann aggregierte Qualitäts-Scores anhand der Häufigkeit dieser Phrasen ermittelt werden.
Metriken für die Qualitäts-Bewertung
- Anzahl neuer Fakten, die eine Website bereitstellt.
- Einfachheit der Annotation der auf der Website gefundenen Daten.
- Homogenität des Inhalts der Website (Fokus auf ein einzelnes Thema oder Entität).
- Strukturierungsgrad der Daten (Vorhandensein von Tabellen, Listen etc.).
- Domain-Autorität der Website.
- Wirtschaftlichkeit der Datengewinnung von der Website.
- Coverage: Prozentsatz relevanter Daten, die auf der Website vorhanden sind.
- Accuracy: Korrektheit der Informationen auf der Website.
- Timeliness: Aktualität der Daten auf der Website.
- Cost: Kosten, die mit dem Zugriff auf die Daten der Website verbunden sind.
- Metriken basierend auf einem Knowledge Graph
- Relatedness Metric
- Notable Type Metric
- Contribution Metric
- Prize Metric
- Website-Signale:
- Originalität des Inhalts
- Verhältnis von originalem zu kopiertem Inhalt
- Layout der Website
- Grammatik
- Rechtschreibung
- Vorhandensein unangemessener Inhalte
- Qualität eingehender Links von anderen Ressourcen
- Link-Qualitäts-Score basierend auf der Qualität der verlinkenden Ressourcen
- Dauer der Nutzerbesuche auf den Ressourcen der Website
- Klickrate der Website in Suchergebnissen
- Selektionsdauer: durchschnittliche Zeit, die die Website angezeigt wird, wenn sie ausgewählt wurde
- Layout-Score: Bewertung der Qualität des Website-Layouts
- Anzahl der eingehenden Links zur Website
- Anzahl unqualifizierter Quellen, die auf die Website verlinken
- Phrasen-spezifische relative Häufigkeit von bestimmten Phrasen auf der Website
- Aggregierter Qualitäts-Score basierend auf der Häufigkeit von Phrasen
- Genauigkeit der Webquelle (Wahrscheinlichkeit, dass die bereitgestellten Informationen korrekt sind)
- Precision und Recall des Extraktors (Leistung der Programme, die Informationen von der Website extrahieren)
- Relevanz des Inhalts zum Thema
- Nicht-Trivialität der präsentierten Fakten
- Zielgruppenansprache (z.B. breit oder Nische
Weitere Signale für E-E-A-T finden Sie in unserer ausführlichen Übersicht “80+ Faktoren für eine E-E-A-T-Bewertung durch Google” und Grafik:

Welche Art von Klassifikatoren können für die Qualitäts-Bewertung genutzt werden?
Für die Qualitätsbewertung von Webquellen können verschiedene Arten von Klassifikatoren und Modellen aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz eingesetzt werden.
Die untersuchten Patente und Paper erwähnen explizit oder implizit die folgenden Arten:
- Faktencheck-Modelle wie BERT, T5 und GPT-4 können im Rahmen der Natural Language Processing (NLP) zur Analyse der Inhaltsqualität verwendet werden, indem sie Inhalte mit bekannten Fakten vergleichen.
- Graphbasierte Lernverfahren wie Knowledge Graph Embeddings (mittels Graph Neural Networks – GNNs) können Beziehungen zwischen Quellen analysieren und beispielsweise originalen von kopiertem Inhalt unterscheiden oder Faktkonsistenzprüfungen durchführen.
- Reinforcement Learning Modelle können verwendet werden, um Quellen basierend auf Feedback zu ihrer Glaubwürdigkeit zu ranken und die Gewichtung von Qualitätsmetriken dynamisch anzupassen.
- Clustering- und Anomalieerkennungsverfahren wie K-Means und DBSCAN können zur Dublettenerkennung unter den Datenquellen eingesetzt werden.
- Support Vector Machines (SVMs) sind ein Beispiel für Modelle, die Beziehungen zwischen Datensätzen bestimmen und zur Vorhersage der Website-Qualität verwendet werden können .
- Andere maschinelle Lernmethoden wie lineare Klassifikatoren und quadratische Klassifikatoren können ebenfalls zur Entwicklung und zum Training von Modellen zur Qualitätsvorhersage genutzt werden.
- Auch Regressionstechniken wie die Gauß-Prozess-Regression können verwendet werden, um Beziehungen zwischen Datensätzen zu identifizieren und Modelle zu generieren, die die Qualität basierend auf den Daten vorhersagen.
- In Bezug auf die Klassifizierung von Ressourcen in vordefinierte Kategorien (z. B. Spam, Nachrichten, Blogs) können Klassifikatoren eingesetzt werden, die auf den Features der Ressource basieren und für jede Kategorie einen Score vorhersagen, der die Wahrscheinlichkeit angibt, dass die Ressource zu dieser Kategorie gehört.
- Anstelle eines Klassifikators kann auch eine Ranking-Funktion verwendet werden, um die Kategorien nach der vorhergesagten Wahrscheinlichkeit zu ordnen..
- Qualitätsmodelle, die auf gegebenen Qualitäts-Scores, Nachbar-Features (Qualität verlinkter Entitäten) und entitätsspezifischen Feature-Werten basieren, können verwendet werden, um Qualitäts-Scores für neue, unbekannte Entitäten zu berechnen. Dies kann beispielsweise durch lineare Modelle realisiert werden.
Zusammenfassend lässt sich sagen, dass eine breite Palette von Klassifikatoren und Modellen aus verschiedenen Bereichen des maschinellen Lernens für die Qualitätsbewertung von Webquellen in Betracht gezogen werden kann, wobei die spezifische Wahl von den verfügbaren Daten, den gewünschten Qualitätsmetriken und der Art der durchzuführenden Bewertung abhängt.

Welchen Einfluss können diese Erkenntnisse für die Indexierung von Content haben?
Google achtet laut eigener Aussage immer mehr auf die Qualität von Inhalten bei der Indexierung von Inhalten. Gute verlinkung und Sitemaps sind schon lange keine Garantie mehr für Crawling und Indexierung.
Die Erkenntnisse über die Bewertung von Qualität, Autorität und Reputation von Webquellen können einen erheblichen Einfluss auf die Indexierung von Content haben.
Hier sind einige wichtige Aspekte:
- Selektive Indexierung basierend auf Qualität: Suchmaschinen können qualitativ hochwertige Quellen priorisieren und weniger wertvolle oder unzuverlässige Inhalte seltener oder gar nicht indexieren. Metriken wie Genauigkeit der Webquelle, Präzision und Recall des Extraktors, Relevanz des Inhalts und Nicht-Trivialität der präsentierten Fakten könnten als Filter dienen, um sicherzustellen, dass der Index primär Inhalte von hoher Güte enthält. Dies kann die Effektivität des Suchmaschinenindex verbessern.
- Berücksichtigung von Autorität und Reputation bei der Indexierung: Quellen mit hoher Domain-Autorität, hoher Vertrauenswürdigkeit (basierend auf Knowledge-Based Trust und wenigen falschen Fakten) und einer starken Reputation (gestützt durch qualitative eingehende Links und positives Nutzer-Feedback) könnten bei der Indexierung bevorzugt behandelt werden. Dies könnte bedeuten, dass Inhalte von autoritativen Quellen schneller indexiert werden oder dass mehr Informationen aus diesen Quellen extrahiert und im Index angereichert werden.
- Einfluss von strukturierten Daten: Websites, die ihre Inhalte in leicht definierbare Slices strukturieren, sind laut Quelle4 wahrscheinlicher für die Wissensanreicherung ausgewählt zu werden. Dies impliziert, dass gut strukturierte Daten die Indexierbarkeit und die Nutzbarkeit der Inhalte für Systeme wie MIDAS verbessern können, was wiederum die Sichtbarkeit und potenziellen Nutzen dieser Inhalte erhöht.
- Bias-Erkennung und Indexierung: Die Erkennung von Bias in Datenquellen ist entscheidend, da biased Daten Suchergebnisse verzerren können. Suchmaschinen könnten Mechanismen einsetzen, um biased Quellen bei der Indexierung herunterzustufen oder ihre Inhalte weniger prominent im Index zu gewichten, um die Glaubwürdigkeit der Suchergebnisse zu gewährleisten.
- Nutzerverhalten als Indikator für Qualität und Relevanz: Das Nutzerverhalten (z.B. Klickraten, Selektionsdauer) kann als implizites Feedback zur Qualität und Relevanz der indexierten Inhalte dienen …. Suchmaschinen können diese Daten nutzen, um hochwertige Ressourcen im Index zu boosten und weniger relevante oder qualitativ minderwertige Inhalte zu demoten.. Dies kann auch die Häufigkeit der Indexierung beeinflussen; hochwertige, oft genutzte Inhalte könnten häufiger auf Aktualität überprüft und neu indexiert werden.
- Entitäten-basierte Indexierung: Die Identifizierung und Annotation von Entities in Ressourcen während der Indexierung ermöglicht eine feinere Granularität bei der Suche und der Wissensanreicherung. Die Qualität und Autorität der Quellen, die Informationen zu bestimmten Entities liefern, könnten beeinflussen, wie diese Entities im Index repräsentiert und gewichtet werden.
Die Bewertung von Qualität, Autorität und Reputation ermöglicht es Suchmaschinen, einen qualitativ hochwertigeren und vertrauenswürdigeren Index aufzubauen. Dies führt potenziell zu relevanteren und nützlicheren Suchergebnissen für die Nutzer und kann Website-Betreiber dazu anregen, hochwertige, gut strukturierte und autoritative Inhalte zu erstellen, um eine bessere Sichtbarkeit und Nutzung ihrer Informationen zu erzielen. Die Entscheidung, welche Inhalte indexiert werden, wie oft sie indexiert werden und wie sie im Index gewichtet werden, kann somit maßgeblich von diesen Qualitäts- und Reputationsbewertungen beeinflusst werden.
Welchen Einfluss können diese Erkenntnisse für RAG gestützte generative KI Systeme wie ChatGPT oder Perplexity haben?
Die Erkenntnisse über die Bewertung von Qualität, Autorität und Reputation von Webquellen können einen signifikanten und positiven Einfluss auf RAG-gestützte generative KI-Systeme wie ChatGPT oder Perplexity haben. Diese Systeme recherchieren relevante Informationen aus externen Quellen, um ihre Antworten zu generieren. Die Qualität dieser Quellen ist daher entscheidend für die Zuverlässigkeit und Nützlichkeit der generierten Inhalte.
Hier sind einige konkrete Auswirkungen:
- Verbesserte Auswahl relevanter Dokumente: RAG-Systeme können Qualitätsmetriken nutzen, um bei der Recherche autoritative und reputierliche Quellen zu priorisieren. Anstatt sich auf eine breite Menge potenziell minderwertiger Informationen zu stützen, können sie sich auf Inhalte von höherer Vertrauenswürdigkeit und Genauigkeit konzentrieren. Dies führt zu einer besseren Grundlage für die Generierung von Antworten.
- Erhöhte Genauigkeit und Faktentreue der generierten Antworten: Wenn das RAG-System seine Informationen primär aus qualitativ hochwertigen Quellen bezieht (basierend auf Kriterien wie Faktengenauigkeit, Domain-Autorität und Reputation), ist die Wahrscheinlichkeit, dass die generierten Antworten korrekt und faktentreu sind, deutlich höher. Dies ist besonders wichtig für Systeme, die für die Bereitstellung von Informationen und Erklärungen in kritischen Bereichen eingesetzt werden.
- Reduzierung von Fehlinformationen und Bias: Durch die bewusste Auswahl von Quellen mit geringerem Bias und höherer redaktioneller Integrität können RAG-Systeme das Risiko minimieren, fehlerhafte, irreführende oder tendenziöse Informationen zu verbreiten. Die Bewertung der Quellqualität kann somit dazu beitragen, die Glaubwürdigkeit der generativen KI-Systeme zu stärken.
- Effizientere Informationsbeschaffung: Die Priorisierung hochwertiger Quellen kann auch die Effizienz des Retrieval-Prozesses verbessern. Wenn das System in der Lage ist, schnell die relevantesten und vertrauenswürdigsten Dokumente zu identifizieren, kann es die benötigten Informationen schneller finden und verarbeiten, was zu schnelleren Antwortzeiten führt.
- Bessere Handhabung von Unsicherheit und widersprüchlichen Informationen: Wenn RAG-Systeme die Qualität und Vertrauenswürdigkeit verschiedener Quellen einschätzen können, die möglicherweise widersprüchliche Informationen liefern, können sie diese Informationen differenzierter präsentieren oder die Informationen aus höher bewerteten Quellen stärker gewichten. Dies führt zu nuancierteren und informierteren Antworten.
- Potenzial für spezialisierte Wissensbasen: Die Erkenntnisse über die Bewertung von Autorität und Reputation könnten es ermöglichen, spezialisierte und kuratierte Wissensbasen für RAG-Systeme zu erstellen, die sich auf bestimmte Themenbereiche konzentrieren und nur Informationen aus höchst angesehenen Quellen enthalten.
Zusammenfassend lässt sich sagen, dass die Integration von Methoden zur Qualitätsbewertung von Webquellen in RAG-gestützte generative KI-Systeme entscheidend ist, um genauere, zuverlässigere und glaubwürdigere Antworten zu liefern. Dies trägt dazu bei, das Potenzial dieser Systeme voll auszuschöpfen und die Risiken der Verbreitung von Fehlinformationen zu minimieren. Die Fähigkeit, qualitativ hochwertige Informationen zu identifizieren und zu nutzen, ist ein Schlüsselfaktor für die Weiterentwicklung und den breiten Einsatz von RAG-Systemen.
Was können SEOs tun um Qualität, Autorität und Reputation einer Website zu verbessern?
Als SEO können Sie verschiedene Maßnahmen ergreifen, um die Qualität, Autorität und Reputation einer Website zu verbessern. Diese Aspekte sind entscheidend für ein besseres Ranking in Suchmaschinen und für das Vertrauen der Nutzer.
Hier sind einige wichtige Strategien:
- Erstellung hochwertiger und relevanter Inhalte: Stellen Sie sicher, dass Ihre Website umfassende, genaue und einzigartige Inhalte bietet, die die Informationsbedürfnisse Ihrer Zielgruppe erfüllen. Die Quellen betonen die Bedeutung von reichen und vollständigen Inhalten. Vermeiden Sie Duplicate Content und minderwertige Inhalte.
- Verbesserung der Website-Struktur und Benutzerfreundlichkeit: Eine gut organisierte Website mit einer klaren Struktur erleichtert es Suchmaschinen und Nutzern, Ihre Inhalte zu verstehen und zu navigieren. Achten Sie auf eine intuitive Navigation, kurze Ladezeiten und eine mobilfreundliche Gestaltung. Websites, die in leicht definierbare Slices organisiert sind, können für Systeme zur Wissensanreicherung attraktiver sein.
- Optimierung von strukturierten Daten: Implementieren Sie Schema-Markup (JSON-LD, RDFa etc.), um Suchmaschinen zusätzliche Informationen über Ihre Inhalte zu liefern.. Stellen Sie sicher, dass diese strukturierten Daten vollständig und akkurat sind. Dies kann die Sichtbarkeit in Rich Snippets und Knowledge Panels verbessern.
- Aufbau hochwertiger Backlinks: Qualitative und relevante Backlinks von autoritären Websites sind ein wichtiger Faktor für die Steigerung der Domain-Autorität.
- Konzentrieren Sie sich auf den Aufbau natürlicher Verlinkungen durch wertvolle Inhalte und Kooperationen statt auf manipulative Linkbuilding-Taktiken.
- Fokus auf E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness): Google legt großen Wert auf diese Faktoren.. Demonstrieren Sie Expertise durch fundierte Inhalte, Autorität durch die Anerkennung Ihrer Website als verlässliche Informationsquelle in Ihrer Nische und Vertrauenswürdigkeit durch Transparenz und die Einhaltung hoher redaktioneller Standards. Zeigen Sie Erfahrung, falls relevant für Ihr Thema.
- Pflege einer positiven Online-Reputation: Überwachen Sie Ihre Online-Erwähnungen und reagieren Sie professionell auf Feedback. Ermutigen Sie zufriedene Kunden zur Abgabe positiver Bewertungen. Ein guter Ruf trägt zur allgemeinen Vertrauenswürdigkeit Ihrer Website bei.
- Verbesserung der Website-Performance und -Sicherheit: Eine schnelle und sichere Website bietet eine bessere Nutzererfahrung und wird von Suchmaschinen positiv bewertet. Achten Sie auf HTTPS, optimierte Bilder und einen zuverlässigen Hosting-Anbieter.
- Reduzierung von Datenredundanz: Vermeiden Sie doppelte oder sich überschneidende Daten auf Ihrer Website, um Ihre Glaubwürdigkeit zu erhalten.
- Implementierung von automatisierten Qualitätschecks: Erwägen Sie die Implementierung von automatisierten Qualitätsprüfungen für strukturierte Daten, um Konsistenz und Genauigkeit sicherzustellen.
- Fokus auf Nischendaten: Websites mit einzigartigen und hochwertigen Inhalten in spezifischen Bereichen haben einen Wettbewerbsvorteil.
- Indem Sie diese Strategien konsequent umsetzen, können Sie die Qualität, Autorität und Reputation Ihrer Website nachhaltig verbessern, was sich positiv auf Ihre Suchmaschinenrankings und das Vertrauen Ihrer Nutzer auswirken wird.

Quellenangaben
Website quality signal generation
Evaluating quality based on neighbor features
Resource scoring adjustment based on entity selections
Producing a ranking for pages using distances in a web-link graph
Obtaining authoritative search results
Determining a quality measure for a resource
Classifying sites as low quality sites
Finding Quality in Quantity: The Challenge of Discovering Valuable Sources for Integration
Analysis of MIDAS: Finding the Right Web Sources to Fill Knowledge Gaps