Semantisches Clustering
06 / 2007
en | de
Home
Icon

Diese Seite bietet einige Beispiele zu Clustering von Web-Inhalten, mittels Algorithmen und Visualisierungen die wir während meiner Zeit bei Netbreeze erstellt haben. Clustering bezeichnet eine Aufspaltung einer grossen Menge in viele kleinere Gruppen von untereinander sehr ähnlichen Objekten (in unserem Fall sind dies meistens Wörter oder Phrasen). Wir haben verschiedene Clustering-Algorithmen implementiert für Dokumente, Worte, Adjektive, Phrasen, Produkte sowie sogar für im Internet erwähnte Arzneimittel-Inhaltsstoffe. Die untenstehenden dynamischen Visualisierungen zeigen die Beziehungen zwischen den Wörtern/Phrasen, wie auch ihre Wichtigkeit (Grösse) und ihren Trend (Farbe). Die Visualisierung wurde mittels Prefuse realisiert.

Clustering von 'trendigen' Phrasen in Zusammenhang mit Klima-Wandel (Datenquelle: eine Auswahl von Web-Dokumenten von Mai 2007 die 'climate change' enthalten):

If you can read this text, you probably don't have Java installed? (version 1.4.2 or later is required)

Get Java here.


Applet und Daten © by Netbreeze GmbH

Bedeutung der Visualisierung:
Die Grösse der Knoten repräsentiert die Häufigkeit des Vorkommens in der ganzen Dokumentmenge, und die Farbe der Knoten zeigt den Trend des entsprechenden Begriffs (d.h. wie stark der Begriff in letzter Zeit häufiger oder seltener benutzt wurde).

Bedienung des Applets:
Die beiden Schieberegler im unteren Teil erlauben das Anpassen der Anzahl von Begriffen die pro Cluster angezeigt werden sollen, und andererseits der maximalen Distanz von sichtbaren Knoten gemessen zu einem ausgewählten Knoten. Weiter kann man die Darstellung mit dem Scroll-Rad der Maus vergrössern und verkleinern, und alle Knoten lassen sich auch direkt mit der Maus bewegen. Mittels dem zusätzlichen auf der rechten Seite versteckten Einstellungs-Panel lassen sich zudem noch weitere Parameter, wie z.B. die Gravitationskraft oder der Abstand zwischen den Knoten direkt verändern.


Clustering von Phrasen in Zusammenhang mit 'Herz-Infarkt' (basierend auf Internet-Daten von Mai 2007):

If you can read this text, you probably don't have Java installed? (version 1.4.2 or later is required)

Get Java here.

Applet und Daten © by Netbreeze GmbH

Beispiel-Clustering von Arzneimittel-Inhaltsstoffen (basierend auf Internet-Daten von Mai 2007):

If you can read this text, you probably don't have Java installed? (version 1.4.2 or later is required)

Get Java here.

Applet und Daten © by Netbreeze GmbH

Links:

Netbreeze GmbH die Schweizer Firma Netbreeze baut 'Knowledge Generators' basierend auf Internet-Daten.
Prefuse interactive information visualization toolkit (Sehr gutes Java Open-Source Toolkit).