Crawler
Stand: 02.05.2024
Was ist ein Crawler?
Mit mehr als 1 Milliarde Webseiten weltweit bietet das Internet ein schier unüberschaubares Angebot an Informationen. Doch wie gelingt es Suchmaschinen wie Google, Bing und Co., das alles zu erfassen und zu kategorisieren, sodass ein Nutzer die passenden Inhalte finden kann? Sogenannte Web Crawler sind dabei der Schlüssel zum Erfolg – aber was ist eigentlich ein Crawler und wie funktioniert er?
Crawler Bedeutung: Die Definition von Web Crawlern
Die Entstehung von Crawlern reicht bis in die 1990er-Jahre zurück, als diese Programme dazu eingesetzt wurden, um das Wachstum des Internets zu messen. Mit zunehmender Popularität und einer schnell steigenden Anzahl an Webseiten wurde es aber zunehmend wichtiger, auch die Inhalte zu erfassen und zu kategorisieren – der Volltextindex war geboren.
Heute durchsuchen diese automatisierten Programme oder Bots täglich das Internet weltweit, um alle Suchergebnisse aktuell und relevant halten zu können. Dazu gehen sie eine Liste von Adressen und Links ab, die neu eingestellt wurden. Experten schätzen sogar, dass mittlerweile rund ein Drittel des gesamten Traffics auf Web Crawler zurückzuführen ist.
Was ist ein Crawler? Kurz gesagt: Ein Programm, das das Internet durchsucht und die Inhalte für Suchmaschinen indexiert und einordnet. Damit spielt es eine wichtige Rolle beim Ranking und beim SEO (Suchmaschinenoptimierung).
Wie funktionieren Crawler?
Die Funktionsweise beruht im Wesentlichen auf leistungsstarken Algorithmen und Skripten, die sich im Laufe der Zeit natürlich permanent weiterentwickeln. Heute funktioniert das Crawling zumeist nach einem vordefinierten und effizienten Prozess.
Was ist ein typischer Crawler-Prozess?
- Es werden URLs vorgegeben (auch als „crawl frontier“ oder „Crawl-Grenze“ bekannt).
- Der Bot geht die Liste neuer URLs samt ihrer Sitemap/Verlinkungen ab.
- Er durchsucht, bewertet und kategorisiert alle Seiten nach ihren Inhalten.
- Es wird eine Kopie der Inhalte für den Suchmaschinenindex erstellt.
Da jeden Tag unzählige Inhalte und Verlinkungen hinzukommen, gehen beim Crawling praktisch niemals neue Seiten aus. Allein die Verlinkungen sorgen immer wieder für eine Ausweitung des Prozesses, sodass ein Web Crawler nahezu automatisch arbeiten kann.
Suchmaschinen fertigen dann von den Inhalten eine lokale Kopie an, um sie für die Suchergebnisse blitzschnell bereitstellen zu können. Das bedeutet auch, dass ein Crawler die eigene Webseite besuchen muss, damit sie schlussendlich bei Google, Bing oder anderen Suchmaschinen auffindbar ist.
Verschiedene Arten von Crawlern
Aber bei der Frage, was ein Crawler ist, gibt es noch weitere Unterscheidungen. Zwar sind alle Arten von Crawlern in ihrer Funktionsweise ähnlich, doch spezialisierte Bots erfüllen manche Aufgaben schlichtweg besser.
Suchmaschinen
Wenn man von Crawling spricht, meint man in den meisten Fällen die Anwendung durch eine Suchmaschine. Diese sind mit Abstand die gängigsten Crawler, die das Internet permanent durchsuchen und indexieren. Denn je umfangreicher und aktueller die Erfassung, desto relevantere und bessere Suchergebnisse lassen sich daraus erzielen.
Focused Crawler
Es gibt aber auch Bots, die nicht alle Themen und Inhalte erfassen, sondern sich auf einen speziellen Bereich konzentrieren. Bei diesen Focused Crawlern geht es also primär darum, nur die relevanten Inhalte zu erfassen, anstatt prinzipiell alles abzugehen. Der Vorteil bei dieser Methode ist, dass das Datenvolumen nur einen Bruchteil ausmacht.
Data Miner
Manchmal sammeln Crawler hingegen lediglich Daten aus dem Internet, was sie prinzipiell zu Data Minern macht. Sie gehen die relevanten Seiten ab und erfassen etwa E-Mails oder Preisinformationen, mit denen die Betreiber Listen oder Preisvergleiche bereitstellen können – weitere Inhalte rücken dann in den Hintergrund.
Personal Crawler
Selbst Einzelpersonen oder kleine Unternehmen können eigene Bots einsetzen, um unter anderem die Häufigkeit einzelner Suchbegriffe oder die Erreichbarkeit von URLs zu überwachen. Das kann wertvolle Ergebnisse liefern, mit denen man das Ranking steigern oder das B2B-Marketing verbessern kann.
Crawler vs. Scraper
In diesem Zusammenhang hört man immer wieder den Begriff „Scraper“, der jedoch eine ganz andere Funktion erfüllt. Ein Crawler durchsucht Seiten und Inhalte, um Daten aufbereiten und bereitstellen zu können (z. B. zur Suchmaschinen-Indexierung). Am Ende steht hauptsächlich ein Mehrwert für Suchende und Webseitenbetreiber im Vordergrund.
Ein Scraper arbeitet jedoch mit der Absicht, Inhalte zu kopieren und diese in gleicher oder ähnlicher Form auf einer anderen Seite bereitzustellen. Es handelt sich also in den meisten Fällen um Plagiat, weshalb der Einsatz solcher Programme zu den Black Hat Techniken gehört. Zum Glück gehen große Suchmaschinen wie Google konsequent gegen gestohlene Inhalte vor.
Das gelingt beispielsweise dadurch, indem die hauseigenen Crawler neue Inhalte vorab finden und indexieren, sodass nachher Kopien bereits am Datum leicht zu erkennen sind. Damit leisten die Google-Bots einen wichtigen Beitrag, um Plagiate unter den Suchergebnissen auszuschließen. Cleveres Content-Recycling ist hingegen erlaubt.
Kann man Crawling unterbinden?
Wer gute Inhalte bereitstellt, sollte diese grundsätzlich immer crawlen lassen. Aber es gibt auch Fälle, bei denen es sinnvoll sein kann, das Crawling zu unterbinden. Das gelingt mithilfe einer robots.txt-Datei oder Anweisung in den Meta-Informationen, die man auf der eigenen Seite hinterlassen kann.
Beliebte Anweisungen an einen Crawler, z. B. an einen Google-Bot sind:
- Disallow: Der Crawler liest den Befehl in der robots.txt-Datei und weiß sofort, dass er die Seite wieder verlassen muss. Eine Indexierung findet nicht statt. Alternativ lassen sich einzelne Unterseiten oder Ordner sperren.
- NoIndex: Dieser Befehl erfüllt eine identische Funktion, wird aber in den Meta-Tags einer Seite hinterlegt, die ein Crawler zu Beginn ansteuert. In diesem Fall dürfte er die betroffene Seite dann ebenfalls nicht indexieren.
- NoFollow: Auf einer Seite können sich zahlreiche Links befinden, die ein Bot in der Regel im Anschluss crawlen geht. Mit dem NoFollow-Befehl in den Meta-Tags kann man dem Crawler sagen, dass er den Links nicht folgen soll.
Welche Rolle spielen Crawler bei SEO?
Crawling bildet die Grundlage für alle Ergebnisse einer Suchmaschine und sollte prinzipiell so schnell und so häufig wie möglich initiiert werden. Web Crawler sind vorwiegend an Meta-Informationen und Keywords interessiert, um die Inhalte besser ranken zu können. Mit einer zielgenauen robots.txt-Datei kann man ihnen die Arbeit deutlich erleichtern.
Zudem sind klare Sitemaps und ein logischer Seitenaufbau ebenfalls von hoher Bedeutung. Viele interne Verlinkungen sowie Backlinks führen ebenfalls zu häufigeren Besuchen durch die praktischen Bots, damit Inhalte relevant und aktuell bleiben können. Erfahrene Betreiber machen sich diesen Umstand zunutze und verbessern dadurch ihr Suchmaschinenranking.
Am Ende ist es nämlich genau das, was ein Crawler ist: Ein cleveres Programm zum Erfassen und Indizieren neuer Inhalte, damit die Suchmaschinenergebnisse immer auf dem neuesten Stand bleiben. Wer die Bots beim Crawling unterstützt, profitiert am Ende meistens von mehr Traffic.
WEBMARKETIERE Insider abonnieren!
Erhalte jeden Mittwoch unsere WEBMARKETIERE Insider mit Tipps, Tricks und Insights zum Thema Online Marketing mit Schwerpunkt Suchmaschinenoptimierung.