Google Labs: Correlate

Google bringt ein neues Analysetool, zur Zeit nur als ß in den Google Labs verfügbar und nur für den amerikanischen Markt ausgerichtet.Google Correlate findet zu Suchbegriffen korrelierende Suchbegriffe. Dies müssen keine ähnlichen Suchbegriffe im Sinne einer ähnlichen Schreibweise oder Bedeutung sein, sondern es handelt sich um Begriffe, die aufgrund des Suchverhaltens aller User in Zusammenhang verwendet worden sind. Es handelt sich also um eine Analyse historischer Daten. Ziel war, ein Modell zu finden, das aus den Sucheingaben der Google Suchmaschine auf allgemeines Verhalten oder bestimmte Begebenheiten in der Realität schließen lässt. So kann man damit darstellen, wie sich Krankheiten über die US-Bundestaaten ausgebreitet haben, da man unterstellt, dass Google User, wenn sie von z.B. Grippe-Symptomen betroffen sind, nach Begriffen wie „Husten“, „Schnupfen“, „Fieber“ oder eben „Grippe“ suchen. D.h. es gibt dann eine erhöhte Wahrscheinlichkeit in dem betroffenen geographischen Gebiet, dass diese Begriffe vermehrt eingegeben werden. Nutzt man also Google Correlate, dann kann man Begriffe finden, die etwas mit dem eingebenen Oberbegriff zu tun haben. Das lässt sich dann bezogen auf geographische Regionen oder auf einer  Zeitachse seit 2004 darstellen.

Beispiel:

Mich interessiert, welche Begriffe mit „PHP“ korrelieren. Google Correlate findet eine sehr starke Korrelation (r=0,9876; dies ist das „Maß“ für die Zusammenhangstärke) zu „mySQL“. Der Zusammenhang zum Begriff „html input“ ist mit r=.9785 ein wenig schwächer. Aber hier wird sehr gut der innere Zusammenhang sichtbar.

Diese Grafik zeigt den Zusammenhang zwischen „hosting“ und „mysql php“ (r=0.9664). Man könnte interpretieren, dass Mitte/Ende 2004 PHP und mySQL ein neues Thema war und verstärkt in Zusammenhang mit Hosting danach gesucht wurde. Heute gehört PHP und MySQL zur Standardfunktion im Bereich Hosting, so dass sich die Suchanfragen nicht mehr unterscheiden. Es lässt sich eine Grafik als Zeitreihe anzeigen oder auch als Scatterplot, um die Nähe der beiden Werte zur Regressionsgeraden zu sehen.