Der Vortrag ist Teil des Doktorandenworkshops der Berliner XML-Tage 2004.
Lutz Maicher ist Promotionsstudent an der Universität Leipzig. Er befasst sich mit Topic Maps und diskutiert das Problem der Assoziation zwischen Topics und ihrer Entsprechung in der realen Welt. Eine scharfe 1:1-Zuordnung ist in der Praxis nicht möglich. Außerdem gibt es das (auch in der RDF-Welt viel diskutierte) Problem, dass eine URI sowohl ein Lokator als auch ein Name sein könnte, also z.B. sowohl die Homepage von Herrn Meyer als auch Herr Meyer selbst bezeichnen könnte. Weiterhin das Problem des Merging: Wie stellt man fest, dass zwei URIs das gleiche Thema beschreiben (Siehe owl:InverseFunctionalProperty et al. in RDF-Land).
Sein Lösungsansatz nennt sich Subject Indentity Measure (SIM). Es ist eine Heuristik zur Ermittlung der Ähnlichkeit zwischen Themen. Anhand der Ähnlichkeit kann entschieden werden, ob verschiedene Topics das gleiche Subject bezeichnen. Wichtigstes Merkmal der Heuristik ist die String-Ähnlichkeit der Topic Names.
Sein Algorithmus erzielt sehr gute Resultate bei Topic Maps, die aus Bibliothekskatalogen erzeugt wurden. Mit anderen Maps hat er bisher nicht getestet (MP3-Sammlungen?).
Er erwähnt mögliche Verbesserungen: Eineziehung der Typen der Topics, Anaylse der Nachbarschaft der Topics.
Eine nicht diskutierte Problematik ist auch, dass das Konzept der „Identität“ stark vom Kontext abhängt. Ein Restaurant zieht in neue Räume um, eine neue Bewirtung übernimmt die alten Räume. Ist es noch das gleiche Restaurant? Kommt darauf an, ob man der Vermieter oder ein Stammgast ist.