Die interne Vernetzung der eigenen Webseite darstellen

Es ist ja manchmal interessant, sich die interne Verlinkung der eigenen Website anzusehen. Wenn man das Funktionieren externer Links überprüfen will, gibt es einige Linkcheck – Tools.

Wer aber wissen will, welche Webseite (HTML Dokument) welche Links enthalten, braucht einen Spider, der die Seiten abcrawlt und die enthaltenen Links zurückliefert. Das ist die Voraussetzung, um eine visuelle Darstellung vornehmen zu können. Diese Liste sollte man dann auch in ein möglichst flaches Dateiformat wie csv exportieren können.

Auf Anregung einiger Arbeiten mit akademischer Zielsetzung hin, habe zunächst mit Yacy, der Open Source Suchmaschine experimentiert. Yacy ist sehr mächtig und es gibt bereits eine eingebaute Visualisierungsfunktion, leider aber nur auf Domainebene, nicht auf Dokumentebene. Das Extrahieren aus dem von Yacy erzeugten Index und der Solr Datenbank dürfte langwierig werden. Einen schnellen Weg habe ich mit den Exportoptionen von Yacy nicht gefunden.

Vielleicht ein Ansatz: Yacy zur Untersuchung, wie die eigene Site in einem begrenzten Feld vernetzt ist

Yacy wäre sicher phantastisch einzusetzen, wenn man sich die Vernetzung der eigenen Domain ansehen will. Natürlich kann man nicht das ganze Web abspidern, aber für einen wie auch immer abgegrenzten Bereich sollte das funktionieren. Hier könnte man nochmal ansetzen, indem man als Ausgangpunkt für ein Crawling eine Liste relevanter Domains vorgibt. Je nach dem wie die eigene Domain dann in das gefundene Netz eingebunden ist, könnte man dann Rückschlüsse darauf ziehen, welche Relevanz die eigene Domain in einer größeren Gruppe verwandter Site hat.

Finden der internen Verlinkungen mit Screaming Frog

Zielführender für die Visualisierung der internen Verlinkung einer Site ist, Screaming Frog zu verwenden. Wenn man mehr als 500 URIs crawlen will, kostet das 99 englische Pfund pro Jahr, denn dann braucht man eine kostenpflichtige Lizenz. Kleine Websites sind damit noch zu analysieren.

Man schickt also Screamingfrog los und wartet auf das Crawlergebnis. Die gefundenen Links werden in eine CVS-Textdatei exportiert.

Die exportierte Datei sollte man mit Excel bearbeiten und Verlinkungen zu CSS Dateien und so weiter entfernen, wenn dies nicht interessiert.

Visualisierung mit Gephi

Screamingfrog kann selbst nichts visualisieren, dafür eignet sich aber Gephi gut. Gephi ist ein Open Source Tool zur Graphenanalyse. Es gibt sicher viele andere Tools, u.a. wird oft Mathematica von Wolfram (ja, die Firma mit der Suchmaschine Wolfram Alpha) zitiert. Doch diese Software ist nicht unter einer Open Source Lizenz verfügbar.

Gephi kann eine CSV Datei importieren. In „Spalte eins“ sollte die Ursprungsseite stehen und in „Spalte zwei“ jeweils eine der auf dieser Seite gefundenen Links, die zu andere Seiten führen.

So werden die Links als gerichtete Graphen interpretiert.

Importiert man nun diese sehr einfache Graphendatei in Gephi kann man schon die Visualiserung starten.

Übersichtliche Darstellung gesucht

Im Overview Fenster kann man einige Layout Algorithmen auswählen. Welche die beste ist (wenn es überhaut eine beste gibt), ist von der Struktur der Website abhängig. Das Ziel dürfte hier sein, das gefundene Netz aus Graphen übersichtlich und aussagekräftig darzustellen.

screenshot_screaming-Gephi-graph-YiFanHuMultilevel

Dafür gibt es fertige Algorithmen, die alle etwas unterschiedlich funktionieren und die Knoten und Katen auf unterschiedlichste Weise darstellen.

screenshot_screaming-Gephi-graph-raw

In diesem Beispiel ist Yifan Hu Multilevel angewendet worden. Der Algorithmus ist von einem Graphen-Forscher entwickelt worden und in Gephi standardmäßig implementiert:

screenshot_screaming-Gephi-import

Mir ging es darum, die stärksten Knoten zu finden und ich wollte Seiten finden, die zu wenig integriert (nur an einem Link hängen). Zudem überlege ich mir, die Seitenhierarchie umzustrukturieren und wollte einen Blick aus der „Hubschrauberperspektive auf die Seite“. Um dies zu sehen, war dieser Darstellungsalgrothmus ganz gut.

Veröffentlicht von

Markus Käkenmeister

Interessiert an Technologie, Politik, Psychologie. Seit 2000 beruflich im Web (Internetbranche) als Marketing Manager und Product Manager Schwerpunkt Community/Dating, Hosting, Domains, Cloud

Kommentar verfassen