Es gibt keine zentrale Stelle, an der Webseiten registriert werden müssten. Das Web ist dezentral – das war auch so gedacht.
Die Kehrseite der Medaille ist: Informationen sind schwer zu finden (davon lebt Google sehr gut) und außerdem weiß man nicht abschließend, welche Informationen es gibt und wie viel davon.
Es gibt ein offensichtlich niederländisches Projekt, das die Größe des Word Wide Webes anhand verschiedener Abbildungen zu erfassen und zu verfolgen versucht: http://www.worldwidewebsize.com
Bing und Google lassen keine Einblicke zu, wieviele Dokumente sich in ihren Indizes befinden. Der Macher der Seite rechnet die Zahlen auf Basis von Suchanfragen mit definierten Suchbegriffen hoch. Dabei geben die Suchergebnisseiten aus, wieviele Treffer ingesamt gefunden wurden. So wird die Anzahl der indizierten Dokumente abgeschätzt. Als Bezugsgröße wird auch DMOZ verwendet. Wie das genau gemacht wird, haben Antal van den Bosch, Toine Bogers und Maurice de Kunder in ihrem Paper beschrieben (PDF).
Für Google schätzen die Forscher, dass 45 bis 50 Milliarden Webdokumente erfasst sind. Für Bing liegt die Zahl deutlich tiefer, so bei 15 Milliarden Webdokumenten. Yahoo und Ask berichten keine Zahlen mehr.
Interessant ist der Trend.
Besonders bei Bing fällt auf, dass zunehmend weniger Treffer ausgewiesen werden. Weniger deutlich sieht das im Falle Google im Zweijahreszeitraum aus.
Zu erwarten wäre, dass die Größe des Google Index (und auch die von Bing) weiter steigt, da die Crawler in immer weitere Bereich vordringen, die man gelegentlich Dark Web nennt. Dem ist offenbar nicht so.
Möglicherweise liegt dies aber auch an der Methode, die ja auf Suchbegriffen basiert, die von vorneherein festgelegt sind und sich auch auf das DMOZ-Verzeichnis beziehen, das vielleicht nicht mehr die Rolle spielt wie in den früher 2000er Jahren.
Andererseits erscheint die Vermutung eines Zusammenschrumpfprozess des offenen Webs durchaus plausibel:
- Verlagerung von Informationen in schwer durchsuchbare Social Web Plattformen
- Bündelung von Informationen in Mobile Apps, die ebenfalls nicht per Crawler durchsuchbar sind und keine einfache Verlinkung zulassen.
- Es entstehen zwar weiter immer mehr Webseiten, aber die Relevanz dieser Webseiten für Suchanfragen schwindet im Durchschnitt tendenziell.