>> Ressourcen > Theses > Heber, Jürgen: [..]

Knowledge Discovery
Broker-Entwicklungsarbeiten für das xFIND-Suchsystem
Untersuchung gegenwärtiger Information Retrieval- und Klassifikationssysteme
sowie Entwicklung eines Brokerprototyps

Diplomarbeit
an der
Technischen Universität Graz
vorgelegt von

Jürgen Heber

Institut für Informationsverarbeitung und Computergestützte neue Medien (IICM)
Technische Universität Graz
A-8010 Graz

Juli 2000

©   Copyright 2000, Jürgen Heber

Begutachter: o.Univ.-Prof.Dr.Dr.h.c. Hermann Maurer
Betreuer: Dipl.-Ing. Christian Gütl


Kurzfassung

Das World Wide Web (WWW), als die herausragendste Anwendung des Internet, stellt heute das größte und am schnellsten wachsende Informationssystem der Welt dar. Als solches verlangt das WWW nach offenen Standards und Verfahren, die dem Benutzer eine hohe Qualität der Information gewährleisten. Die rasante Zunahme der Datenmenge, sowie die Vielfalt und Unstrukturiertheit ihrer Repräsentation behindern die zaghaft einsetzenden Standardisierungsbemühungen der Informationsbeschreibung und -wiederauffindung.

In den derzeitigen Suchdiensten findet der Qualitätsaspekt ebensowenig Berücksichtigung wie die Netzentlastung durch lokale Informationssammlung und Informationsverteilung. Eine einmal vorverarbeitete Information sollte im Idealfall jedem interessierten Suchdienst derart zur Verfügung stehen, daß bei der Abfrage keine unnötige Server- oder Netzbelastung entsteht. Die vorliegende Studie beschreibt Forschungs- und Implementierungsarbeiten, die im Zusammenhang mit dem Suchsystem xFIND (Extended Framework for Information Discovery) durchgeführt wurden. Das am IICM (Institut für Informationsverarbeitung und Computergestützte Neue Medien) der Technischen Universität Graz entwickelte System organisiert die Aufbereitung, Indizierung und Abrufbarkeit von Information in einer verteilten Architektur, welche die Vollständigkeit und Aktualität bei geringer Server- und Netzbelastung wesentlich verbessert.

Im Untersuchungsbereich wird als erster Punkt die Indizierung behandelt, die den Mittelpunkt jedes Suchsystems darstellt. Es erfolgt eine Betrachtung aus theoretischer und praktischer Sicht und es wird eine Gegenüberstellung gängiger Indizierer, die innerhalb des xFIND-Suchsystems zur Anwendung gelangen können, vorgenommen. Als zweiter Punkt der Untersuchung wird die Bedeutung von Metadaten zur qualitätvollen Informationsbeschreibung und -suche erläutert, dabei steht der Einfluß der thematischen Klassifikation von Webressourcen im Vordergrund.

Die Ergebnisse des Untersuchungsbereiches fließen in die Entwicklung eines Brokerprototyps für das xFIND-Suchsystem ein. Ein xFIND-Broker, der als Vermittler zwischen anfragenden Benutzern und Informationsanbietern fungiert, hat genaue Kenntnis über das Informationsangebot einzelner Anbieter (z.B. über die behandelten Themengebiete). Dadurch kann eine selektive thematische Verteilung der einlangenden Suchanfragen erfolgen, die in Verbindung mit der Auswertung weiterer inhaltsbeschreibender und -beurteilender Metadaten entscheidend zur Erhöhung der Qualität von Suchergebnissen beiträgt. Die zugrundeliegenden Konzepte, die Architektur und Funktionsweise, sowie eine Reihe von Vorschlägen zur Weiterentwicklung des Broker werden im Gestaltungsbereich dieser Arbeit beschrieben.


Abstract

Today the World Wide Web (WWW), as the most popular internet application, represents the world's largest and fastest growing information system. Therefore it demands some sort of open standards and methods, which are able to grant a high degree of information quality. Rapid growth of data as well as great variety and lack of structure are main characteristics of the WWW, which hamper upcoming standardization effords of information description and retrieval.

Present searchservices don't consider aspects of quality very well and there are no proposals about local gathering and distribution of information, which would help to minimize data traffic. Information gathered and preprocessed in one place should be available to searchservices in such a manner that any access to this information has only little impact on server- and net-load. This thesis describes research and implementation work concerning the searchsystem xFIND (Extended Framework for Information Discovery). The xFIND-System, which is in process of development at IICM (Institute for Information Processing and Computer Supported New Media) at Graz University of Technology, organizes information gathering, indexing and access in a distributed architecture. As an outcome it provides completeness and topicality of information, whilst decreasing server- and net-load.

The first part of this study treats with indexing as the most important feature of any searchsystem. It will be analysed by a theoretical and practical point of view and by a comparison of present day information retrieval systems, which can be used in xFIND. In the second part of this study the role of metadata in high-quality information description and retrieval will be explained, with special emphasis on thematical classification of web resources.

The results of this study will be used in the development of a broker prototype which fits into the xFIND searchsystem. A xFIND broker works between users and information providers, it has a detailed knowledge about any offered information (e.g. about topics). By that means a broker performs a thematically distribution of searchqueries, which in conjunction with an evaluation of additional metadata - used for content description and rating - leads to a higher degree of quality in searchresults. Inherent concepts, architecture and mode of operation of this knowledge broker will be discussed in the practical part of this thesis.


HTML-Version

PDF-Version