Wie funktioniert eine Suchmaschine? Crawling, Indizierung und Ranking

suchmaschine

Wie funktioniert eine Suchmaschine? 

Suchmaschinen crawlen Milliarden von Webseiten, indizieren sie und stellen sie den Nutzern zur Verfügung. Bei der Eingabe einer Suchanfrage in eine Suchmaschine durchforsten Web-Crawler, so genannte Bots oder Spider, Tausende, manchmal Millionen von Seiten in ihrem Index, wählen die relevantesten aus (basierend auf vielen Faktoren) und liefern Ihnen eine Antwort.

In diesem Artikel geben wir Ihnen eine Antwort auf die Frage: „Wie funktioniert eine Suchmaschine?“ und vermitteln wir Ihnen ein grundlegendes Verständnis der Funktionsweise von Suchmaschinen in drei Schritten:

  1. Crawling
  2. Indizierung
  3. Ranking

1. Crawling ( Finden)

Damit Suchmaschinen Webseiten für Nutzer bereitstellen können, müssen sie diese zunächst entdecken. Es gibt schätzungsweise 1,88 Milliarden Websites im Internet, was zu Milliarden von Seiten führt. Es gibt keinen zentralen Ort, an dem alle Websites und Seiten gespeichert sind, so dass Suchmaschinen ständig nach neuen Seiten suchen und diese in ihren Index aufnehmen müssen.

Suchmaschinen finden Webseiten auf viele Arten. Eine Möglichkeit ist, einem Link von einer bereits gefundenen Seite zu folgen. Ein anderer Weg ist das Lesen einer Sitemap. Eine Sitemap ist eine Datei mit Informationen wie Seiten, Bildern oder Videos auf Ihrer Website, die so organisiert ist, dass sie für Suchmaschinen-Bots leichter zu verstehen ist.

Viele CMS (Content Management Systeme), wie WordPress generieren automatisch Sitemaps. Wenn Sie sich bezüglich Ihrer Sitemap unsicher sind, hilft Ihnen mein Beitrag zum Thema technische SEO.

Sobald Suchmaschinen Seiten finden, werden diese gecrawlt. Einfach ausgedrückt bedeutet dies, dass ihre Bots sich die Seiten ansehen und prüfen, worum es geht. Sie analysieren den schriftlichen Inhalt, den nicht schriftlichen Inhalt, das visuelle Erscheinungsbild und das Gesamtlayout.

Websites, die von Suchmaschinen gefunden werden können, werden oder können alle paar Tage bis alle paar Wochen gecrawlt werden. Faktoren wie Domain Authority, Saisonalität und Struktur spielen eine Rolle dabei, wie oft Ihre Website gecrawlt wird.

2. Indizieren (Organisieren)

Die Indizierung ist der Prozess der Analyse einer Seite und der Speicherung und Katalogisierung dieser Informationen. Nachdem eine Seite gefunden und gecrawlt wurde, werden die relevanten Informationen indiziert. Allerdings sind nicht alle gecrawlten Informationen relevant – nur weil eine Seite gefunden und gecrawlt wurde, bedeutet das nicht, dass sie auch indiziert wird.

Alle Informationen, die indiziert werden, werden in einem Suchindex gespeichert. Die Suchindizes sind sehr groß und umfangreich. Der von Google beispielsweise umfasst weit über 100.000.000 Gigabyte und ist auf etwa 2,5 Millionen Servern in aller Welt untergebracht. Suchindizes sind so konzipiert, dass sie Suchanfragen auf URLs abbilden, so dass es für Benutzer einfach ist, eine Suche durchzuführen und Hunderte von Milliarden von Ergebnissen in weniger als 1 Sekunde zu erhalten.

3. Ranking (Ausliefern)

Sobald Seiten gecrawlt und indiziert sind, können sie auf einer Suchmaschinen-Ergebnisseite (SERP) angezeigt werden. SERPs sind das, was Sie erhalten, nachdem Sie eine Suchanfrage in eine Suchmaschine eingegeben haben. Die relevanten Ergebnisse, die auf einer SERP aufgelistet werden, sind im Wesentlichen nach Rangfolge geordnet – Platz 1 wird oben auf der Seite aufgelistet (oft unterhalb von Anzeigen), gefolgt von den anderen Seiten in aufsteigender Reihenfolge.

Suchmaschinen bestimmen die Rangfolge anhand vieler Faktoren. Dazu gehören Relevanz, Qualität, Standort, Autorität und Gerät, um nur einige zu nennen. Die Entschlüsselung der Ranking-Faktoren und die Bestimmung der Faktoren, die Ihre Website verbessern muss, ist die Grundlage der Suchmaschinenoptimierung (SEO).

Als SEO-Freelancer unterstütze ich im B2B-Bereich tätige Unternehmen mit B2B-SEO bei der Optimierung ihrer Suchmaschinen Performance.

Welche Bedeutung hat der Suchmaschinenindex?

Webseiten, die von der Suchmaschine entdeckt wurden, werden in eine Datenstruktur aufgenommen, die Index genannt wird.

Der Index enthält alle entdeckten URLs zusammen mit einer Reihe von relevanten Schlüsselsignalen über den Inhalt jeder URL, wie z.B:

  • Die Keywords, die im Inhalt der Seite entdeckt wurden – welche Themen deckt die Seite ab?
  • Die Art des Inhalts, der gecrawlt wird (unter Verwendung von Mikrodaten, genannt Schema) – was ist auf der Seite enthalten?
  • Die Aktualität der Seite – wie kürzlich wurde sie aktualisiert?
  • Die bisherige Nutzeraktivität der Seite und/oder der Domain – wie interagieren die Nutzer mit der Seite?

Was ist das Ziel eines Suchmaschinen-Algorithmus?

Das Ziel des Algorithmus einer Suchmaschine ist es, eine Reihe relevanter und qualitativ hochwertiger Suchergebnisse zu präsentieren, die die Anfrage des Benutzers so schnell wie möglich beantworten.

Der Benutzer wählt dann eine Option aus der Liste der Suchergebnisse aus. Diese Aktion und die darauf folgenden Aktivitäten fließen in zukünftige Erkenntnisse ein, die sich auf das Ranking der Suchmaschinen auswirken können.

Warum wird eine Seite in der Suchmaschine nicht indiziert?

Es gibt eine Reihe von Umständen, unter denen eine URL nicht von einer Suchmaschine indiziert wird. Dies kann folgende Gründe haben:

  • Ausschluss von Robots.txt-Dateien – eine Datei, die Suchmaschinen mitteilt, was sie auf Ihrer Website nicht besuchen sollen.
  • Weisungen auf der Webseite, die Suchmaschinen anweisen, diese Seite nicht zu indizieren (noindex-Tag) oder eine andere ähnliche Seite zu indizieren (canonical-Tag).
  • Die Algorithmen der Suchmaschinen bewerten die Seite als minderwertig, mit dünnem Inhalt oder mit doppeltem Inhalt.
  • Die URL gibt eine Fehlerseite zurück (z.B. einen HTTP-Antwortcode 404 Not Found).

Wie hilfreich war dieser Beitrag / Service?

Geben Sie Ihre Bewertung ab!

Durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 5

Bisher keine Bewertungen! Seien Sie der Erste, der diesen Beitrag bewertet.