SINN
       




    Projektbeschreibung

    Inhalt

    1 Allgemeines/Organisatorisches
    1.1 Name des Projektes
    1.2 Projektleitung
    1.3 Projektlaufzeit
    1.4 Teilnehmende Einrichtungen
    2 Beschreibung des Projektes
    2.1 Projektziel
    2.2 Inhaltlicher Hintergrund
    3 Projektplanung
    3.1 Projekt-Vorleistungen, Vorarbeiten, bisherige Ergebnisse
    3.1.1 Stand der eigenen Dienste
    3.1.1.1 PhysNet
    3.1.1.2 Harvest-Replicator - Aufbau logischer Broker-Netze
    3.1.1.3 Query-basierte Vernetzung
    3.1.1.4 EPRINT-Projekt
    3.1.1.5 MetaPhys
    3.1.1.6 CARMEN
    3.1.1.7 Nutzungsanalyse und -statistik
    3.1.1.8 Internationale und Interdisziplinäre Einbindung
    3.2 Informations- und kommunikationstechnische Beschreibung
    3.3 Kommunikationssoftware
    3.4 Beschreibung des Arbeitsverlaufes: Arbeitspakete und Arbeitsschritte
    3.4.1 AP1: Technische Realisierung und Dienstleistung
    3.4.2 AP2: Internationale Einbettung
    3.4.3 AP3: Nutzeranalyse
    3.5 Meilensteine
    4 Publikationen, Vorträge, Aktivitäten

    1 Allgemeines/Organisatorisches

    1.1 Name des Projektes

    Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz

    Arbeitskürzel: SINN

    1.2 Projektleitung

    Dr. Eberhard R. Hilf, Prof. i. R.
    Institute for Science Networking
    an der Carl von Ossietzky Universtät Oldenburg
    D- 26111 Oldenburg, Germany

    1.3 Projektlaufzeit

    24 Monate

    1.4 Teilnehmende Einrichtungen

    • Antragsteller und federführend bei der Durchführung des Projektes:

      Institut für Science Networking
      an der Carl von Ossietzky-Universität Oldenburg
      Ammerländer Heerstraße 121
      D-26129 Oldenburg, Germany

    • Technische Partner, die im Rahmen dieses Projektes während der Projektzeit bereit sind, vom Antragsteller betreut einen Spiegel (selbständige Query-Beantwortung durch einen Broker, der auf die gesamte Information zugreift) von PhysNet einzurichten; ihre Unkosten aber aus Fördermitteln Ihres eigenen Landes beziehen (Absichtserklärung liegt vor):
      • S. McMurry, Department of Physics, Trinity College Dublin, Ireland
      • K. Szalay, KFKI Research Institute for Particle and Nuclear Physics, H-1525 Budapest 114, Hungary
      • S. Ranjan, Institute for Plasma Research, Gujarat, India.
      • P. Fekete, Physical Optics University of Sydney, Australia
    Angestrebt wird mittelfristig je ein Spiegel pro Industrieland.


    PhysNet wird im Auftrage der internationalen Fachgesellschaft EPS (European Physical Society) durch die Universität Oldenburg (Fachbereich Physik, Institute for Science Networking) betrieben und inhaltlich kontrolliert durch ihr ACPuC Action Committee on Publication and scientific Communication.

    2 Beschreibung des Projektes

    2.1 Projektziel

    SINN will das seit 1994 entwickelte Informationssystem PhysNet www.eps.org/PhysNet/ - eine von der Universität Oldenburg im Auftrag der EPS (European Physical Society) betriebene Suchmaschine über weltweit zur Zeit etwa 1.500 Physik-Fachbereiche und Institute - zu einem in der Nutzung belastbaren, sicheren weil verteilten, und akzeptierten Dienst ausbauen.

    Dies soll durch den Aufbau eines globalen und kohärent gekoppelten Netzes von Brokern (Query-Beantwortern) und Gatherern (Informationssammlern) erfolgen.

    Die eingesetzte Software HARVEST ist eine offene Software der University of Colorado, deren Weiterentwicklung u. a. von der Universität Dortmund unterstützt wird. Sie bietet mit ihrer Replica-Technik (automatische Spiegelung und Aktualisierung der verteilt erstellten regionalen Indexfiles (ohne zentralen Server), sowie Routen der Queries zu auskunftsbereiten Brokern) zu dem geplanten Vorhaben die technische Möglichkeit. Die Replica-Technik wurde bisher noch nicht im praktischen Betrieb eingesetzt, aber von uns in enger Zusammenarbeit mit den Mathematik-Gruppen an der Universität Osnabrück und am Konrad-Zuse-Zentrum für Informationstechnik Berlin bereits getestet.

    Die gemeinsam mit dem Math-Net www.math-net.de entwickelten Programme und Standards sollen eingesetzt, im praktischen internationalen Betrieb erprobt und so angepaßt werden, daß eine Übertragung auf andere wissenschaftliche Fachrichtungen vorbereitet wird.

    Das Suchmaschinen-Netzwerk soll mehrere netzglobal verteilte Spiegel des vollen Datensatzes von Indexfiles enthalten und bei Ausfall eines (oder mehrerer) der beteiligten Suchinterfaces den Nutzer automatisch auf ein anderes, funktionierendes Interface weiterleiten.

    Zugleich kann der Einsatz regionaler Broker die Leitungsnetzbelastung weltweit verringern, das Antwortverhalten verbessern, und so die Skalierung zu größerer Nutzung vorbereiten.

    Es soll eine Sprache zum optimalen Anfragenaustausch zwischen den Spiegeln definiert und erprobt werden, um das Gesamtsystem gegen Ausfall von einzelnen Spiegeln zu sichern. Die Verteilung der weltweit eingehenden Queries auf ein Netz verteilter Broker, die jeder alle Indexfiles als Informationsquelle haben, soll das System sicher (gegen den Ausfall eines Brokers) und schnell machen.

    Der Dienst ist fachspezifisch, d. h. auf Informationen aus der Physik ausgerichtet. Durch die Beschränkung auf Informationen aus - von den nationalen Fachgesellschaften anerkannten - Physik-Institutionen wird eine gewisse Fachkompetenz der Antworten sichergestellt.

    Es soll die internationale Kooperation durch gemeinsame virtuelle Strukturen zum Austausch von und dem Arbeiten an den Programmen, dem Transfer von Kenntnissen und Erfahrungen, sowie durch gemeinsame Workshops der Teilnehmer organisiert werden. Als Kern dienen die im Vorhaben organisierten internationalen Tagungen.

    Es soll die Kenntnis über die Dienste bei den potentiellen Nutzern (allein in Deutschland 38.000 Physiker, weltweit ca. 500.000) verbreitet werden durch Präsentationen auf Fachtagungen, Treffen der beteiligten Interessengruppen, sowie Messen. Jeweils soll die Reaktion der Nutzung der Dienste auf die Aktionen gemessen und diese Kenntnisse zu einer Professionalisierung sowie der Vermehrung der Akzeptanz verwertet werden.

    Die Belastung der Internet-Leitungen durch die Nutzung soll detailliert gemessen und das Antwortverhalten durch Ausschöpfung der Möglichkeiten der Vernetzung von verteilt gekoppelten Brokern skalierbar optimiert werden.

    • Die internationale Einbindung soll forciert,
    • die Standardisierung beachtet und vorangetrieben,
    • die Nutzerakzeptanz unter besondererer Beachtung des zu erstellenden Nutzerprofils untersucht, dokumentiert und optimiert werden.
    Hierbei sollen der Einfluß von Schulungen, Zusatzdiensten, Publikationen etc. auf die Akzeptanz untersucht werden.

    Am Ende des Projektes soll es ein weltweites, netzwerkbasiertes Physik-Informations-System geben, das die gebündelte Information möglichst vieler fachspezifischer Server vorhält, über verteilte Suchmaschinen zugänglich macht, redundant spiegelt und eine einheitliche Nutzeroberfläche zu möglichst vielen der fachspezifischen Datenquellen (z. B. Verlagsdatenbanken, Preprint-Servern etc.) bietet. Das Netzwerk soll international von den Nutzern akzeptiert sein. Ein Nutzerprofil soll erstellt und als Arbeitsgrundlage für weitere Projekte im Bereich des Fachinformationsmanagements zur Verfügung stehen. Es wird Software zur Verfügung stehen, die es erlauben wird, ,,Meta-Suchmaschinen`` aufzubauen.

    Der Nutzer des Systems kann über seinen Web-Browser eine ihm vertraute, nutzerkreisspezifische Suchoberfläche nutzen. Das Gesamtsystem ist durch seine verteilte Architektur unempfindlich gegen den Ausfall einzelner Teilsysteme. Das System überwacht sich selbst und leitet ggf. die Nutzung auf den jeweils funktionierenden Anteil des Systems um.
    Zu diesem Zweck tauschen die vernetzten Suchmaschinen untereinander in regelmäßigen Abständen Statusinformationen aus, die Informationen über ihre Verfügbarkeit, Auslastung (Antwortzeiten) etc. enthalten. Das schließlich zur Verfügung stehende Suchinterface erlaubt die Suche über die lokal indexierten Fachinformationen und parallel die Weiterreichung der Suchanfragen an andere Suchmaschinen in einem standardisierten Format und entsprechend die Auswertung der Suchergebnisse. Der Nutzer muß sich also nur eine URL merken und erhält die Resultate eines großen, fachspezifischen anpaßbaren Suchraumes von einer funktionierenden Suchmaschine.

    Nach Projektablauf sollen die Nutzer den Dienst kennen und ihn weiterhin nutzen. Durch die Standardisierung aller verwendeten Protokolle (XML-basierend) wird erreicht, daß der Dienst auch nach Projektende ohne großen personellen - also finanziellen - Aufwand weitergeführt werden kann. Da es sich um einen Mehrwertdienst handelt, der auf Dienste (Suchmaschinen, Datenbanken) aufsetzt, die aus anderen Quellen betrieben und finanziert werden, wird die Übernahme eines funktionierenden und akzeptierten ,,SINN-Dienstes`` durch diese möglich sein. Das schon bisher bewährte Grundkonzept ist, daß die Betreiber von Teildiensten (z. B. nationale Gatherer und Spiegel) anderer Ländern sich dort finanzieren. Beispielsweise hat das ,,Action Committee on Publication and Scientific Communications`` der EPS im April 2000 beschlossen, den Routinebetrieb von PhysNet ohne zeitliche Beschränkung weiter zu fördern.

    2.2 Inhaltlicher Hintergrund

    Das Management wissenschaftlicher Fachinformation hat als eine seiner Aufgaben, für die aktuelle wissenschaftliche Forschung alle benötigten Informationen nutzbar bereitzustellen: Zum Beispiel Ergebnisse anderer Wissenschaftler, Daten und Fakten, Adressen von Kollegen, Hinweise auf Tagungen.

    Im Zeitalter der gedruckten Information war der Engpaß der Transport und die Verteilung der Information. Dies geschah durch ein ausgeklügeltes System des Einsendens von kompakten, im Umfang beschränkten Texten an Verlage, die diese referieren ließen und mit thematisch verwandten Artikeln zu einzelnen Heften von Zeitschriften bündelten, die dann aufwendig über Druck und Grossisten an die Bibliotheken vertrieben wurden -- auf Vorrat, falls am Standort die Information gebraucht werden könnte.

    Im digitalen Zeitalter lassen sich Informationen beliebigen Umfangs und von beliebigen weltweit verteilten Erzeugern aufs Netz stellen. Der Engpass ist nun die Organisation des Auffindens von Information und das Herausfiltern der relevanten Information aus der riesigen Menge der Gesamtinformation des Webs. Diese Aufgabe gilt es verschärft für wissenschaftliche Informationssysteme zu lösen, da die fachrelevante Information nur ein besonders kleiner Teil der insgesamt im Web verfügbaren Information ist. Diesem Zweck soll ein fachspezifisches Suchmaschinen-System dienen.

    Die generellen Anforderungen an ein optimales Informationssystem sind seit langem bekannt (www.physik.uni-oldenburg.de/Docs/THEO3/ information/publications/metafiles/9701.html) :

    • Der abgesuchte Datenraum soll nicht größer aber auch nicht kleiner sein, als vom Nutzer erwartet, (möglichst alle relevanten Information sollen gefunden werden, aber nur diese).
    • Die Anfragen sollen schnell und stets bearbeitet werden, möglichst unabhängig von der Netzbelastung durch Dritte oder dem Ausfall von Brokern.
    Die bisher eingesetzten Konzepte richteten sich meist an den Anforderungen einer viel breiteren Öffentlichkeit aus, sind also nicht wissenschaftsspezifisch ausgelegt.

    Retrievalsysteme allgemein lassen sich mittels einiger Standardmaßzahlen wie Recall, Precision, Fallout-Ratio, Search-Destillation etc. charakterisieren (www.inf-wiss.uni-konstanz.de/People/CWH/vortrag.html) . Besondere Beachtung sollte in diesem Zusammenhang dem jährlichen TREC-Wettbewerb trec.nist.gov (Text REtrieval Conference) gewidmet werden.

    Die bisher von Physikern genutzten Systeme mit ihren Vor-und Nachteilen sind:

    AltaVista www.altavista.com ist eine zentrale Suchmaschine mit einem riesigen, für das Fach Physik viel zu großen Suchraum, der aber andererseits die meisten, in größerer ,,Klicktiefe`` in Fachbereichsservern lagernden Dokumente nicht enthält (an Fachbereichen der Physik sind dies die Tiefen 4-10, siehe www.physik.uni-oldenburg.de/~ eprint/netz/report.html).
    So führt die Suche nach dem Physiker namens ,,Hilf`` in einen riesigen Ergebnisraum irrelevanter Antworten. Andererseits wird die Publikationsliste zur Fachinformation der Universität Oldenburg nicht gefunden (da in zu großer Klick-Tiefe).

    ArXiv www.arxiv.org ist ein zentrales e-Print Archiv der Physik und angrenzender Gebiete, in Los Alamos, USA mit einer Nutzung von 3 Millionen Anfragen pro Monat. Dieses Archiv wächst im Monat um ca. 3.000 neue Dokumente und verfügt über eine leistungsfähige, gut differenzierende Suchmaschine. 15 weltweit verteilte passive Spiegeln (in jedem Industriestaat maximal einer) sichert die stete Erreichbarkeit. Der deutsche Spiegel wird an der Universität Augsburg betrieben. Die nachgewiesenen Dokumente werden von Physikern eingesandt und mit Zeitstempel registriert und archiviert. Die Email-Adresse der Einsender wird geprüft und mit der Adresse des Hauptautors verglichen. Es handelt sich ausschließlich um primäre wissenschaftliche Publikationen, die in aller Regel (über 90 %) parallel auch an Verlage wissenschaftlicher Zeitschriften gesandt werden, die eine wissenschaftliche Referierung bieten. Der Suchraum ist also vollkommen relevant, aber keineswegs vollständig (derzeit etwa 10 % der insgesamt in der Physik entstehenden Publikationen). Die Verletzbarkeit von ArXiv liegt in der einzigen zentralen Dokumentenannahme in Los Alamos.

      Aufgrund eines Brandes in Los Alamos war über mehrere Wochen das Labor nicht zugänglich, eine Wartung konnte also nicht stattfinden. Die Dienstprogramme liefen allerdings automatisch ohne Störung. der leiter und Gründer von ArXiv denkt jetzt jedoch über aktive Spigel nach.

    ArXiv wird vom LANL, einer Großforschungseinrichtung, grundfinanziert und erhält eine Förderung durch die NSF.

    TIPTOP physicsweb.org/TIPTOP ist eine zentrale Datenbank mit einer unmoderierten Uploadstation für Physik-Informationen fast beliebiger Art. Sie wird vor allem für nicht primäre wissenschaftliche Informationen benutzt. Ein Großteil der Informationen ist Physik-relevant, aber die Datenbank ist zu klein. Die Eintragungen sind notwendigerweise - da ungepflegt - oft veraltet und die Datenbank enthält teilweise Einlagen von Laien (oder Provokateuren), die definitiv nicht professionell relevant sind. So führt die Datenbank für Physik-Institute nur zu den Adressen, die von irgendjemand, dessen Identität weder festgehalten noch geprüft wird, einmal eingetragen wurden. Sie sind großteils veraltet, Links funktionieren nicht, die Listen sind unvollständig und unsystematisch (teilweise werden von einer Universität der Fachbereich, teilweise nur ein Institut genannt).
    TipTop wurde von drei Doktoranden (M. Karttunen, McGill University, Kanada; G. Nowotny, TU Wien und K. Holmlund, Umeå University, Schweden) entwickelt und gepflegt, dann von IoPP (Institute Physics Publishing, Großbritanien) aufgekauft und über seinen Server angeboten. Eine Pflege des Systems findet derzeit nicht statt, wird jedoch vom Verlag erwogen.

    Diese drei Systeme sind zentrale Archive.

    Eine Zwitterstellung nimmt NDLDT ein. In diesem im Aufbau befindlichen System des Virginia Polytechnic Institute and State University (Virginia Tech) sind die Informationen nicht nach Fächern geordnet. Es ist zwar eine zentrale Datenbank, aber die Dokumente sind Kopien der Dokumente von verschiedenen großen Dokumentensammlungen mit Inhalten aus verschiedenen Wissenschaftsgebieten.
    NDLDT erfordert bereits jetzt ein sehr großes und leistungsfähiges Rechenzentrum. Die Skalierbarkeit zu größerer Nutzung und zu sehr viel mehr Dokumenten ist zweifelhaft. Es wurde daher eine Kooperation mit PhysNet begonnen. Diese wird dort von der NSF finanziert, um NDLDT mit PhysNet zu verzahnen und Software auszutauschen.

    Eine weitere Kategorie sind die wissenschaftlichen Verlage. Sie unterhalten zum Teil sehr große zentrale Dokumentenarchive. Der Zugang ist oft kostenpflichtig. Es handelt sich um zentrale Volltextarchive mit z. T. einigen passiven Spiegeln.

    Ein System mit weltweit verteilten Servern als Quellen eines Physik-Dienstes gibt es außer dem 1994 begonnenen PhysNet bisher nicht. Der zu den bisher genannten Systemen komplementäre Dienst PhysNet wird daher im folgenden Abschnitt vorgestellt.

    3 Projektplanung

    3.1 Projekt-Vorleistungen, Vorarbeiten, bisherige Ergebnisse

    3.1.1 Stand der eigenen Dienste

    3.1.1.1 PhysNet

    PhysNet physnet.uni-oldenburg.de/PhysNet ist zu den in Kapitel 2.2 genannten Systemen komplementär. Es vermeidet durch einen prinzipiell anderen Ansatz die Nachteile der Notwendigkeit großer zentraler Rechenanlagen für Volltextarchive. Dafür werden die logischen und nicht nur die technischen Möglichkeiten des Internets genutzt: Die Dokumente bleiben auf dem Server des Erzeugers und können von diesem gepflegt werden. Dafür muß eine gewisse Organisation der Koordination von verteilten Gatherern und Brokern entwickelt werden.

    Dieses Konzept wurde zeitgleich aber unabhängig auf dem Workshop in Halle 1994 von M. Grötschel (,,MathNet``) und uns (,,PhysNet``) vorgestellt. www.physik.uni-oldenburg.de/~ hilf/vortraege/halle-ebs/halle-ebs.html

    Die Leitlinien von PhysNet sind:

    • Die Erzeuger von Information behalten die Kontrolle über ihr Dokument (um Korrekturen vorzunehmen, für Updates, zur Adjustierung des von ihnen gesetzten Copyrights bzgl. Verwendungen durch Dritte).
    • Es soll langfristig keine Zentrale geben, sondern nur ein Netz von Brokern/Gatherern, mit lokalen, regionalen, nationalen Zuständigkeiten für die Indexfiles aber voller Gleichberechtigung im Beantworten von Queries (,,aktives Spiegelnetz``). Hierdurch soll das System unabhängig von dem Ausfall einzelner Spiegel werden, und es soll schon der Anschein einer Dominanz einer Nation über andere vermieden werden (Akzeptanz).
    • Die Inhalte werden offen und kostenfrei allen Internet-Nutzern zugänglich gemacht (free access full text service).
    • Es werden einheitliche internationale Standards gesetzt für das ganze System, realisiert durch Vereinbarungen zu Metadaten und offenem Austausch von Programmen unter den Beteiligten.
    • Das System soll offen bezüglich der Erweiterung durch neue passende Dienste sein.
    • Die Inhalte (Links) werden einer Qualitätskontrolle unterzogen; ein Editoring findet jedoch nicht statt.
    Diese Anforderungen erfordern besonderen Aufwand in Organisation und Zusammenspiel der weltweit verstreuten Beteiligten.

    Der Antragsteller hat in den vergangenen Jahren seit 1994 mit dem PhysNet einen in der Physik-Community von monatlich etwa 30.000 Physikern genutzen Dienst geschaffen.

    Es handelt es sich um ein Bündel von Diensten, u. a. um Linklisten zu administrativen Informationen (Homepages der Institutionen), grauer Literatur, Lehr- und Lernmaterialien, ,,Free-Access`` Journals, Konferenzen, Stellenanzeigen usw. Jede der thematischen Listen ist durch eine HARVEST-basierte Volltext-Suchmaschine vervollständigt. Insbesondere jene Suchmaschinen, die die graue Literatur (Publikationen, die online auf dem Server des Autors verfügbar sind) und die die Homepages der Fachbereiche und Institutionen erschließen, lassen sich nicht oder nur eingeschränkt (Einschränkung des Dokumentenraumes) als zentrale Dienste betreiben, ohne die Netzbelastung unvertretbar zu erhöhen.

      Flaschenhals in der Kommunikation ist derzeit die Anbindung der Universität an das WiN mit 34 Mbit und insbesondere die Anbindung ausländischer Netze and das WiN. Nationales Datensammeln ist fast in jedem 'Internet-Land' unproblematisch, internationales hingegen sehr langwierig bzw. teilweise unmöglich. Beispielsweise betreiben wir einen Gatherer erfolgreich in Indien, da die nationalen Leitungen ausreichend Kapazität aufweisen, während die internationale Anbindung nur über einen unzuverlässigen Satelliten-Link realisiert ist.

    Deshalb wurden nationale und internationale Partner gefunden, die für die Suchmaschinen ebenfalls Roboter (HARVEST-Gatherer = Dokumentensammler) betreiben. Momentan sind dies (an den Universitäten die jeweiligen Physik-Fachbereiche):

    • Universität Augsburg
    • Freie Universität Berlin
    • Hahn-Meitner-Institut Berlin GmbH (HMI)
    • Technische Universität Berlin
    • Universität Bonn
    • Max-Planck-Institut für Radioastronomie Bonn
    • Technische Universität Chemnitz
    • Technische Universität Darmstadt
    • Universität-Gesamthochschule Essen
    • Universität Frankfurt
    • GKSS Geesthacht
    • Universität Göttingen
    • Universität Greifswald
    • Universität Halle
    • Universität Hamburg
    • Universität Hannover
    • Universität Hildesheim
    • Universität Kaiserslautern
    • Universität Kassel
    • Universität Kiel
    • Max-Planck-Institut für Physik, München - Werner-Heisenberg-Institut
    • Technische Universität München
    • Universität Oldenburg
    • Universität Osnabrück
    • Universität Regensburg
    • Universität Saarbrücken
    • Universität Stuttgart
    • Deutsche Physikalische Gesellschaft
    • National Broker at Trinity College, Dublin
    • Institute for Plasma Research, Gujarat, India
    Diese verteilten Gatherer liefern dann ihre aktuellen Indexdaten an einen zentralen Informationsbroker beim Antragsteller, der die Informationen recherchierbar vorhält. Hier wurden umfangreiche Erfahrungen mit der offenen HARVEST-Software gesammelt.

    Im Mai 2000 wurden durch die internationalen Fachorganisationen IMU (International Mathematical Union) (Mathematik) und die EPS (European Physical Society) / IUPAP (International Union for Pure and Applied Physics) (Physik) die formalen Randbedingungen für die offizielle weltweite Einführung gelegt. Hierdurch sind nun die Bedingungen für die Teilnahme von Instituten und nationalen Fachgesellschaften festgelegt.

    Im April 2000 haben sich EPS und IMU auf ein Kooperationsabkommen verständigt. Dies wurde im Juni 2000 vom Executive Board der EPS beschlossen.

    PhysNet nutzt die Inhalte der weltweit verteilten Webserver der von Fachgesellschaften anerkannten Physik-Institute und Fachbereiche an Hochschulen als verteilte Datenbank. Als Metadaten-Standard wird Dublin-Core purl.org/dc (ab 16. August 2000 voraussichtlich ANSI/NISO Z39.85-2000) verwendet (siehe auch IETF RFC 2413 und 2731). Hierzu wurde zusammen mit der Mathematik in Osnabrück eine Webform entwickelt physnet.uni-oldenburg.de/services/mmm/, die die Metadaten erzeugt und dem Nutzer zurückgibt. Die Pflege der Daten geschieht durch die Autoren selbst.

    3.1.1.2 Harvest-Replicator - Aufbau logischer Broker-Netze

    Stand der Technik für die Replica-Technik ist, daß es hierfür eine HARVEST-Software gibt, die jedoch der Anpassung und Überarbeitung bedarf. Im Rahmen des MathNet-Projektes wurde die Software erprobt, wobei festgestellt wurde, daß in der momentanen Implementation die Anzahl der spiegelbaren Dokumente auf etwa 100 begrenzt und die Anzahl der Spiegel maximal drei (!) sein darf. Die Software läuft momentan auch nicht stabil. Das Hauptproblem liegt dabei im verwendeten Algorithmus zur Berechnung der Topologie und der unnötig extensiven Nutzung von Systemressourcen. International arbeiten an der Weiterentwicklung der HARVEST-Software u. a. das Tardis-Projekt www.tardis.ed.ac.uk/~ harvest, Teile des DESIRE-Projektes www.lub.lu.se/desire/, der Lehrstuhl VI des Fachbereiches Informatik an der Universität Dortmund ls6-www.cs.uni-dortmund.de/projects.html. Der Antragsteller hat zusammen mit der Arbeitsgruppe ,,Algebraische Topologie, Differentialtopologie`` des Fachbereiches Mathematik/Informatik an der Universität Osnabrück mehrere Patches geschrieben, die inzwischen fester Bestandteil des HARVEST-Paketes sind: Verarbeitung von Sonderzeichen, Sequenzielles Gatherern. Weiterhin hat der Antragsteller zusammen mit ,,Telemática de la Universidad Pública de Navarra`` ein Programm zur Auswertung des HARVEST-Broker-Log-Files zwecks Erstellung einer Nutzungsstatistik geschrieben. Mit den Arbeitsgruppen in Dortmund und Osnabrück bestehen enge technische Kooperationen. So ist der Antragsteller beispielsweise Pilotnutzer im AP7, SFM CARMEN im Projekt Global-Info, in dem eine XML-Retrieval-Maschine entwickelt wird.

    Allgemein beruht die Kommunikation von Suchmaschinen untereinander auf zwei unterschiedlichen Verfahren:

    • Bei der Query-basierten Vernetzung werden alle Nutzeranfragen an die vernetzten Clients weitergeleitet. Anschließend werden die Resultate von allen vernetzten Clients eingesammelt und zu einem Gesamt-Resultat kombiniert. Dies schließt oftmals auch eine Cachespeicherung zur Abpufferung häufig gestellter Fragen ein.
    • Bei der Index-basierten Vernetzung tauschen die Suchmaschinen / Datenbanken ihre Indexdaten bzw. deren Änderungen untereinander aus.
    Beide Verfahren haben Vor- und Nachteile. So ist das Antwortverhalten Index-basierter Netze wesentlich besser, dagegen lassen sich Query-basierte Netze viel leichter aufbauen und ergänzen. Als optimal sehen wir Netze, die auf einer Mischung der beiden Vernetzungsstrategien beruhen.

    3.1.1.3 Query-basierte Vernetzung

    Momentan kommunizieren Suchmaschinen Query-basiert untereinander in proprietären Sprachen, die oftmals sogar auf dem Layout der Query- und Resultseiten der gekoppelten Suchmaschinen aufsetzen (z. B. MetaPhys www.physik.uni-oldenburg.de/MetaPhys und MetaChem www.chemie.de/metachem). Eine standardisierte Sprache, in der die Suchmaschinen Queries an andere Suchmaschinen weiterreichen und die Results zurückliefern, wird benötigt. Vor diesem Hintergrund hat sich 1998 beim W3C die Working Group ,,XML-Query`` gebildet. Diese hat im Januar 2000 ihren ersten öffentlichen Working-Draft herausgegeben www.w3.org/TR/xmlquery-req. XML-Query soll darüber hinausgehend auch Informationen über den Kontext der Suchmaschinen und ihre administrativen Daten (Menge der Daten, Alter der Daten etc.) verwalten und deren Export standardisieren. Als eine weitere Initiative hat sich 1999 die ,,Open Archives Initiative`` www.openarchives.org gegründet, in der sich einige (insbesondere US-Amerikanische) Betreiber offener Archive zusammengeschlossen haben, die die Vernetzung ihrer Archive planen und hierzu das DIENST-Protokoll mit einem gegenüber Dublin-Core und vCard www.imc.org/pdi (RFC 2426) sehr vereinfachten MetaDaten-Satz nutzen wollen.

    3.1.1.4 EPRINT-Projekt

    In einem ersten Schritt konnte von Januar 1997 bis Juni 1999 im Rahmen des DFN-Projektes EPRINT www.eprint.de ein Informationsbroker aufgebaut werden, der die Informationen der beiden unabhängigen, existierenden Einzeldienste PhysDoc (Verteilte Dokumente auf Fachbereichsservern weltweit) und des ,,arXiv.org e-Print archive`` (Deutscher Spiegel an der Univ. Augsburg) de.arxiv.org des zentralen Preprint-Servers in Los Alamos, USA, prototypisch gemeinsam absuchen ließ.

    Hierzu wurde ein auf dem HARVEST-Broker aufsetzendes Skript entwickelt www.physik.uni-halle.de/metabrok.html, das die Nutzeranfragen an mehrere Informationsbroker verteilt und deren Anworten zusammenführt. Hierzu wurden auch alle Dokumente im ArXiv mit Dublin-Core Metadaten versehen. Das Vorhaben hat wesentlich beigetragen

    • zur Kenntnis der Dokumentenarten und -anzahlen als Funktion der Tiefe in den Institutsservern,
    • zu einem tieferen Verständnis von HARVEST und seinen Möglichkeiten,
    • zur Verbreitung von HARVEST in den deutschen Physik-Institutionen
    • zur Entwicklung von Tools zur Erzeugung von Dublin-Core Metadaten durch die Autoren und somit zur Verbreitung von Dublin-Core erschlossenen Dokumenten auf den Institutsservern,
    • zur Entwicklung von Konzepten im Umgang mit nicht ,,Web-konformen`` Dateiformaten (Shadowing)
    • zur Aufstellung einer Kriterienliste, wann Index-basierte und wann Query-basierte Vernetzung sinnvoll ist.
    Im EPRINT-Projekt wurden Index- und Query-basierte Vernetzung detailiert verglichen und ihre Vor- und Nachteile anhand von Beispielinstallationen ausgetestet. Ein Ergebnis war, daß die Query-basierte Vernetzung vorzuziehen ist, wenn
    1. die Datenbasis groß ist,
    2. wenige Anfragen gestellt werden,
    3. die Netzverbindung zwischen den vernetzten Rechnern schnell und stabil ist.
    Vorteile dieser Vernetzung sind insbesondere:
    1. Der Nutzer kann den Informationsraum bestimmen, in dem gesucht wird,
    2. es lassen sich Datenbasen auf vollkommen verschiedenen Systemen vernetzen.
    Nachteil ist, daß die Antwortzeit vom langsamsten der vernetzten Rechner bestimmt wird.
    Das EPRINT-Vorhaben hat als Erkenntnisse für zukünftige Arbeiten geliefert:
    • Es muß ein standardisiertes Protokoll bei der Kommunikation zwischen den Programmteilen (Brokern) geben.
    • Es ist eine detaillierte Evaluation der Nutzung notwendig, mit Experimenten, (Marketing-Versuchen) und Messen der Reaktion der Nutzung (Rückkopplung).
    Der Antragsteller hat im Rahmen des EPRINT-Projektes mehrere Schulungsveranstaltungen zum Einsatz der entwickelten Software und Verwendung von Metadaten zur Objektbeschreibung erfolgreich durchgeführt. Schulungsunterlagen hieraus sind online verfügbar unter www.physik.uni-oldenburg.de/~ eprint/schul/eschul/ .

    31.1.5 MetaPhys

    MetaPhys www.physik.uni-oldenburg.de/MetaPhys, ein weiterer vom Antragsteller angebotener Dienst zur verteilten Suche auf u. a. Verlagsservern, verbindet die Teilkomponenten via HTTP miteinander. Das Java(R)-Servlet simuliert dabei die Aktivitäten eines Nutzers mit WWW-Browser. Der Nachteil dieses Verfahrens ist dabei offensichtlich: Es setzt sehr eng auf die Variablennamen der verknüpften Query-Schnittstellen und dem Layout der Result-Seiten auf. Dieser Dienst funktioniert zwar prinzipiell und mit großer Nutzerakzeptanz (6.500 Zugriffe pro Monat), bedarf aber einer kontinuierlichen Pflege.

    3.1.1.6 CARMEN

    Im BMBF-Projekt "Global-Info", Sonderfördermaßnahme CARMEN, Arbeitspaket 9 www.physik.uni-oldenburg.de/carmen/ap9 wird an einer fachübergreifenden Verknüpfung des MathNet-Dienstes www.math-net.de mit dem PhysNet-Dienst gearbeitet. Dabei stehen insbesondere die semantischen Probleme der verwendeten Klassifikationsschemata zur Dokumentenbeschreibung im Mittelpunkt.

    3.1.1.7 Nutzungsanalyse und -statistik

    Suchmaschinen können nur nützlich sein, wenn sie den Nutzern bekannt sind und von diesen akzeptiert sind. Bei Diensttypen, die den Nutzern vertraut sind, genügen Werbung und eine Marktanalyse (z. B. Umfrage), um das optimale Anpassungskonzept zu finden. Bei neuartigen Diensten ist die Akzeptanz und Nutzung eine eigenständige Herausforderung, die durch Experimente, das Monitoren des Erfolges und eine Analyse und Anpassung erfolgen.
    Das Monitoring des Nutzerverhaltens erfolgt mittels des selbstentwickelten Tools Dieses Skript wertet die allgemeine Statistik des Webservers aus (nicht dessen Log-Files). Damit ist es nicht notwendig, die Log-Files zu archivieren, sondern nur deren Zusammenfassungen in der Web-Statistik. Hierzu wird regelmäßig (z. Zt. wöchentlich) eine Nutzungszeitreihe (pro Datei) gebildet. Die so entstehende Matrix dient dann zur weiteren Analyse und Beantwortung von Fragen der Art:
    • Wie entwickelt sich die Gesamtnutzung?
    • Entwickeln sich Teildienste unterschiedlich?
    • Werden alle Nutzergruppen gleichermaßen erreicht oder nur Teilgruppen?

    3.1.1.8 Internationale und Interdisziplinäre Einbindung

    Zur Query-basierten Vernetzung bietet sich die erwähnte XML-,,Meta-Sprache`` für Queries und Results von Suchmaschinen an. Diese sollte semantisch, eng gekoppelt zu Dublin-Core purl.org/dc entwickelt werden und syntaktisch in XML codiert sein. Der Antragsteller arbeitet seit Jahren aktiv am Dublin-Core mit (DC:Research - Cochairman der Spezial-Interest-Group, Teilnahme an DC Tagungen, IuK-AK-Metadaten und IuK-AK-Vernetzung).

      Die IuK ist die Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland www.iuk-initiative.org.

    Weiterhin arbeitet der Antragsteller momentan im Rahmen der Projekte ,,Dissertationen Online`` (DFG) www.dissonline.org und Global-Info SFM CARMEN (BMBF) www.mathematik.uni-osnabrueck.de/projects/carmen/ an der Entwicklung, Verbreitung, Umsetzung und Verwendung Dokumenten-basierter Metadaten-Konzepte, sowie deren syntax- und semantikübergreifender Verknüpfung.

    Mit dem PhysNet- und dem Dissertationen Online-Projekt ist der Antragsteller aktiv am Aufbau des globalen, interdisziplinären, wissenschaftlichen ,,Open-Archive`` im Rahmen der Open Archives Initiative beteiligt.

    3.2 Informations- und kommunikationstechnische Beschreibung

    Die zur Durchführung des Projektes verwendeten Server sind mit 100 Mbit an das Universitätsnetz angeschlossen. Der Backbone des Universitätsnetzes besteht aus zwei 155 Mbit Leitungen. Der Anschluß an das WiN ist zur Zeit 34 Mbit breit. Laut Aussage des Hochschulrechenzentrums wird sich die WiN-Anbindung im August/September 2000 auf 155 Mbit verbreitern.

    Das beantragte Projekt stellt den Zugang zu Informationen auf lokalen WWW-Servern her. Während der Dienst selbst lediglich Indexdateien im Netz transportiert, werden von den Nutzern dann die eigentlichen Daten direkt von Erzeuger abgerufen. Insofern stellt das beantragte Projekt eine katalytische Komponente dar, die die Netznutzung durch die Physik triggert.

    Wesentlich für das Projekt ist außerdem die Vernetzung als Grundlage des verteilten Arbeitens am Projektinhalt.

    Die Anforderungen an den zukünftigen Netzdurchsatz von PhysNet sind schwer abschätzbar. Zur Zeit gibt es ca. 30.000 Zugriffe pro Monat. Die Queries sind meist Einwort-Fragen. Die Mehrzahl der abgerufenen Dokumente sind Textdokumente. Dies liegt aber an den bisherigen Gewohnheiten der Autoren und Nutzer zu kommunizieren. Die neueren Online Dissertationen beispielsweise sind bereits oft sehr umfangreich (Wegfall der Platzbeschränkung). Durch Metadaten werden sie auch auffindbar. Wir rechnen daher mit einer steil steigenden Anzahl von Nutzern, sobald durch die Einrichtung der Spiegel im Ausland keine nationale Monopolstellung mehr befürchtet wird. Parallel erwarten wir auch einen rasch größer werdenden Datenumfang je Dokument im Mittel.

    Nehmen wir das ArXiv, das denselben Nutzerkreis wie PhysNet anspricht, aber sich auf einen, wenn auch besonders wichtigen Dokumententyp beschränkt und Dokumentenumfangsbeschränkungen hat, als Anhaltspunkt, so erscheint ein Zuwachs der Nutzung um den Faktor 100 im Antragszeitraum denkbar. (Der einzelne Forscher sucht eher öfter nach begleitenden Informationen als speziell nach Preprints.) Der Umfang der Dokumente, die über PhysNet nachgefragt werden, streut sehr weit. Mit PhysDoc als Teil von PhysNet sind aber auch diejenigen Dokumente auffindbar, die deshalb lokal an den Instituten lagern, weil sie durch den Autor aktuell gehalten werden müssen oder weil sie einen besonders großen Umfang haben. Die Messung der besseren Verbreitung von Kopien solcher Dokumente erfordert das quantitative Monitoring von Fachbereichsservern bei den Anfragen aus PhysNet. Dies wird an unserem eigenen Fachbereich www.physik.uni-oldenburg.de geschehen.

    So ist die Zahl der angeforderten Seiten wie folgt gestiegen (jeweils für den Monat Oktober):

    Jahr Zugriffe
    1993 2.190
    1994 8.043
    1995 10.413
    1996 35.984
    1997 39.551
    1998 70.533
    1999 99.696

    und hat im März 2000 121.492 Zugriffe erreicht; also voraussichtlich ca. 156.000 im kommenden Oktober und mindestens 320.000 am Ende der Projektlaufzeit.

    Damit folgt die Entwicklung der Dokumentzugriffe auf diesem Server relativ gut der Gleichung

    die besagt, daß sich die Anzahl der Zugriffe etwa alle 2 Jahre verdoppelt. Mit dem Aufkommen von graphischen Materialien und Multimediadokumenten wird sich diese Entwicklung nochmals enorm beschleunigen.

    Analog erwarten wir eine entsprechend steile Entwicklung der Nutzung von PhysNet. Hierzu muß rechtzeitig das hier beantragte Projekt die Voraussetzungen liefern.

    3.3 Kommunikationssoftware

    Im Rahmen dieses Projektes sollen insbesondere ,,Open-source`` Produkte (hauptsächlich unter Linux) verwendet werden. Als Informationsbroker wird HARVEST download.sourceforge.net/webharvest verwendet werden. XML-Schnittstellen werden auf frei verfügbaren Tools (wie bspw. SAX) unter Java(R) und Perl (Schwerpunkt auf Perl) aufbauend implementiert. Die Userschnittstellen (Web-Schnittstellen) sollen mittels PHP4 implementiert werden und auf Perl5-Skripte zugreifen. Die Kommunikation zwischen den Suchmaschinen wird - auf MetaPhys aufbauend - mittels Java(R)-Servlets erfolgen.

    Die HARVEST-Software ist bei Beachtung der Zitierpflicht für den nicht-kommerziellen Gebrauch kostenlos verfügbar.

    Sollten während der Projektlaufzeit neue, bessere Versionen bzw. Produkte erscheinen, wird natürlich auf diese gewechselt.

    International arbeiten an der Weiterentwicklung der HARVEST-Software u.a. das Tardis-Projekt in Edinburgh, Teile des DESIRE-Projektes in Lund, der Lehrstuhl VI des Fachbereiches Informatik an der Universität Dortmund, zu denen eine enge technische Kooperation besteht.

    3.4 Beschreibung des Arbeitsverlaufes: Arbeitspakete und Arbeitsschritte

    3.4.1 AP1: Technische Realisierung und Dienstleistung

    AP1.a: Aufbau eines verteilten, weltweiten Spiegelsystems von Informationsbrokern
    Aufgebaut werden soll ein sich spiegelndes Netzwerk von Physik-fachspezifischen Informationsbrokern.
    Ausgehend von dem vom Antragsteller organisierten und betriebenen PhysNet, soll ein Netz von Informationsbrokern aufgebaut werden. Derzeit besteht das PhysNet aus mehreren Gatherern, die ihre Indexinformationen an einen zentralen Informationsbroker liefern, der die gesammelte Information dem Nutzer zugänglich macht. Dieser Index-basierte Datenaustausch erlaubt ein relativ gezieltes und schnelles Einsammeln der fachrelevanten Informationen.
    In AP1.a soll der zentrale Informationsbroker durch ein Netzwerk von Brokern ersetzt werden. Die Broker tauschen untereinander die Änderungen ihrer Datenbasen aus. Dabei wird auf dem im HARVEST-Programm bereits implementierten Replica-Konzept aufgebaut (siehe 3.1.1.2). Zum Betrieb eines solchen Brokernetzwerkes ist es notwendig, daß jeder Broker über alle anderen gewisse Informationen vorhält: Ob er funktioniert, wie schnell seine Antwortzeit ist usw. Diese technisch-administrative Information soll mittels eines XML-basierten Protokolls ausgetauscht werden. Vorgesehen ist, daß diese Information nicht direkt vom Broker-Rechner versendet wird, sondern von einem anderen Rechner, so daß auch die Meldung ,,Broker-Rechner läuft nicht`` versandt werden kann. Wenn ein Broker nicht funktioniert, oder aber sehr lange Antwortzeiten aufweist (starke Auslastung), so kann das Protokoll genutzt werden, um dem Nutzer einen der Spiegel vorzuschlagen, der voraussichtlich schneller die gesuchte Antwort liefert.
    Das Arbeitspaket soll u. a.
    • das XML-Protokoll technisch implementieren,
    • die Schnittstellen zwischen den vernetzten Brokern programmieren,
    • Software entwickeln, die die Verwaltung des Netzwerkes erlaubt,
    • Harvest-basierte Gatherer und Broker an den teilnehmenden Orten (und ggf. weiteren) installieren und die technische Beratung bei Fragen, zur lokalen Installation bieten,
    • die entwickelte open source Software dokumentieren.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 12 Personenmonate (PM) beanspruchen.

    AP1.b: Entwicklung einer Sprache zum Anfragenaustausch
    In AP1.a wird ein Index-basiertes System von Brokerspiegeln aufgebaut. Es gibt jedoch auch die Möglichkeit, nicht die Indexinformationen, sondern die Anfragen der Nutzer auszutauschen (Query-basierte Vernetzung).
    In AP1.b soll aufbauend auf XML-Query (Protokoll, das auf Ergenissen der entsprechenden W3C working group basiert) ein Anfrageinterface entwickelt werden, das Anfragen an fachspezifische Quellen schicken kann, die ,,XML-Queries`` verstehen. Die Anzahl der Datenbasen, die so vernetzt werden, soll in Zusammenarbeit mit AP2.b, AP2.c, AP2.d und AP3 maximiert werden. Das von AP1.b zu entwickelnde Tool soll die Results sammeln und auf Wunsch des Nutzers auch mit einem Ranking gewichten. Weiterhin soll geprüft werden, ob ein Tool, das eine Anbindung an das Z39.50-Protokoll ermöglicht, das insbesondere im Bibliothekarischen Bereich verbreitet ist, sinnvoll (im Rahmen dieses Projektes und des anzusprechenden ,,Kundenkreises``) ist und entsprechend in das System integriert werden kann. Als Technik bietet sich hier Java(R) als Servlet an. Dies ist schneller als CGI-Skripte und erlaubt auch anderen Applikationen, auf die Routinen zuzugreifen (siehe auch 3.1.1.5).
    Das Arbeitspaket soll u.a.

    • die Query- und Result-Schnittstelle des Brokers zu XML-Query programmieren,
    • die Nutzerschnittstelle zum Broker gestalten und programmieren,
    • Ranking-Algorithmen erproben und implementieren,
    • Post-Process-Filter in den Broker implementieren,
    • die entwickelte Software dokumentieren und zur Entwicklung weiterer Meta-Broker bereitstellen.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 12 PM beanspruchen.

    3.4.2 AP2: Internationale Einbettung

    AP2.a: Koordination mit den existierenden Partnern und Einbindung neuer Partner
    Die neuen und existierenden (siehe Titelseite) internationalen Partner als Betreiber der Spiegelbroker sollen formal in das Gesamtprojekt eingebettet werden. Es soll mit den Partnern eine schriftliche Vereinbarung über die zu verwendenden Standards getroffen werden. Die Aufteilung der Dienstleistungen und deren Einbindung in das Gesamtprojekt soll in einem möglichst frühen Projektstadium festgeschrieben werden. Neue Partner sollen für das Projekt interessiert und eingebunden werden.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 3 PM beanspruchen.

    AP2.b: Schulung und Einweisung der Partner in das Konzept, Installation der Software
    Die Projektpartner sollen über eine Online-Dokumentation des Projektverlaufes auf dem aktuellen Stand der Entwicklung gehalten werden. Die entwickelte Software wird hier beschrieben werden. In einem internen, gesicherten Teil des Servers werden auch interne Informationen den Projektpartnern zur Verfügung gestellt. Daneben werden der Source-Code und ggf. Binaries der entwickelten Software angeboten. Eine ausführliche Installationsanleitung wird die Dokumentation ergänzen.
    Zum Projektende wird es wenigstens eine Schulungsveranstaltung geben, in der die Nutzer in das System eingewiesen werden, die dahinter stehende Architektur kennenlernen und bei Interesse auch Hinweise zur Installation der Software erhalten.
    Weiterhin soll durch Schulungen, aufbauend auf den Erfahrungen im EPRINT-Projekt (siehe 3.1.1.4) der Einsatz von Metadaten verbreitet, somit die Menge der für einen internationalen Fachdienst relevanten Informationen vergrößert werden.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 5 PM beanspruchen.


    AP2.c: Außendarstellung: Präsentation auf Tagungen und Messen, Organisation zweier Tagungen
    Dieses Arbeitspaket wird die Ergebnisse der anderen APs nach außen präsentieren.
    AP3 wird genau untersuchen, wie groß der Impact einzelner Aktionen, insbesondere dieses APs ist. Entsprechend wird AP2.c weitere Aktivitäten unternehmen. Zu diesen zählen:

    • Vorstellung des Projektes auf Fachtagungen
    • Präsentation des Projektes und seiner Produkte auf Messen
    • Organisation zweier internationaler Tagungen. Auf diesen Tagungen soll das Bewußtsein für die Notwendigkeit und Sinnhaftigkeit der in SINN entwickelten Produkte verbreitet werden. Gleichzeitig soll herausgefunden werden, in wiefern sich Tagungen auch als effektives Medium der Informationsverbreitung für Dienste dieser Art eignen.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 4 PM beanspruchen.

    AP2.d: Gremienarbeit
    Der Antragsteller ist seit Jahren aktiv im Rahmen der Dublin-Core MetaData Initiative (DCMI) und einer der Mitgründer der ,,DC:Research`` Special Interest Group (in Gründung seit Oktober 1999), die die Interessen der Wissenschaften in der Dublin-Core Initiative vertreten will. Seit Jahren ist der Antragsteller aktiv im Rahmen der DPG (Beauftragter des Vorstandes für I+K), IuK für eletronische Fachinformation (1998/99 Sprecher der IuK, seit 1999 Sprecher der AG Vernetzung) und der EPS (Mitglied des ACPuC sowie der ,,Internet Coordination Group``).
    Die Standardisierung der in SINN zu entwickelnden Tools, bzw. die Beachtung von Standards bei der Entwicklung, ist ein wesentlicher Bestandteil des Projektes. Dies setzt die Mitarbeit in Standardisierungsinstitutionen wie W3C (über die DFN-Mitgliedschaft) voraus. Ein weltweites Physik Informationssystem kann und sollte nur in Kooperation mit der IUPAP (International Union of Pure and Applied Physics) www.iupap.org (Workgroup ,,Communication in Physics``) und der EPS (Action Committee on Publication and Scientific Communications) erfolgen. AP2.d wird diese Gremienarbeit übernehmen.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 5 PM beanspruchen.

    3.4.3 AP3: Nutzeranalyse

    Einzelne Aktionen (Tagungen, Zeitschriftenartikel, Änderung der Nutzeroberfläche etc.) bewirken eine Änderung der Akzeptanz und Nutzung eines Dienstes. Dies läßt sich anhand einer Zeitreihenanalyse der Webserver-Statistik nachweisen und entsprechend können die Aktionen optimiert werden.
    Das Nutzerverhalten soll mittels des in 3.1.1.7 beschriebenen Verfahrens und unter Verwendung der vorhandenen Software ausgewertet werden. Hierauf aufbauend ist es dann möglich, weitere Aktivitäten optimiert zu plazieren.
    Die Belastung der Internetleitungen soll anhand der Nutzung der einzelnen Broker ermittelt und detailiert gemessen werden. Durch Ausschöpfung der Möglichkeiten der Vernetzung soll das Antwortverhalten des Netzes von Brokern optimiert werden.
    Verteilt über den Antragszeitraum wird dieses Arbeitspaket voraussichtlich etwa 7 PM beanspruchen.

    3.5 Meilensteine

    Die in den Meilensteinen beschriebenen Aufgaben sollen jeweils bis zum entsprechenden Projektmonat abgearbeitet und dokumentiert sein.

    1. Meilenstein: 4. Projektmonat
    AP1.a: Unterstützung der Partner bei der Installation eines HARVEST-Gatherers und Brokers.
    AP1.b: Einarbeitung in die aktuelle Diskussion und Entwicklung in der W3C-Working-Group ,,XML-Query``.
    Entwicklung eines Query-Protokolls und eines Answer-Protokolls (zunächst prototypisch, bis XML-Query einen Standard definiert).
    AP2.a: Abschluß der Verträge mit den Kernpartnern.
    AP2.b: Erstellung und Aktualisierung von Schulungsunterlagen zur lokalen Installation von HARVEST-Gatherern und -Brokern.
    AP2.c: Erstellung einer Projekt-Homepage.
    Vorstellung des Projektvorhabens.
    AP2.d: Einarbeitung in die W3C-Arbeitsgruppe ,,XML-Query``.
    Anschließend Mitarbeit in der Arbeitsgruppe.
    AP3: Anpassung des vorhandenen Softwaretools zur Zeitreihenerfassung und Auswertung an die Projektbedürfnisse.

    2. Meilenstein: 10. Projektmonat
    AP1.a: Programmierung eines HARVEST-Moduls, welches den Austausch von SOIF-Objekten (Index-Objekte) zwischen den Brokern in Abhängigkeit von der Netzstruktur regelt. Entwicklung einer Datei, die die Netzstruktur beschreibt. Diese Datei soll zentral gepflegt und regelmäßig automatisch gespiegelt werden.
    AP1.b: Programmierung eines HARVEST-Moduls, welches XML-Queries versteht und entsprechend standardisierte Resultate liefert.
    Programmierung einer Nutzerschnittstelle, die Queries parallel an mehrere Broker (Systeme, die XML-Query verstehen) verschickt und deren Antworten auswertet.
    AP2.b: Online-Dokumentation der in AP1.x entwickelten Software.
    AP2.c: Dokumentation aus IUPAP und EPS.
    AP3: Auswertung des Nutzerverhaltens, um weitere Aktivitäten zu plazieren.

    3. Meilenstein: 16. Projektmonat
    AP1.a: Entwicklung eines XML-Protokolls, das technische Informationen über einen Broker propagiert.
    AP1.b: Optimierung des Brokers (Einbau des Rankings)
    AP2.b: Onlinedokumentation der in AP1.x entwickelten Software.
    AP2.c: Vorstellung des Projektes auf Tagungen und Messen.
    Weitere Aktivitäten basierend auf den Erkenntnissen von AP3.
    AP3: Publikation eines Nutzerprofils.

    4. Meilenstein: 24. Projektmonat
    AP1.a: Programmierung eines Moduls, das die technischen Informationen über die anderen Broker umsetzt (beispielsweise einen Nutzer an einen anderen Spiegel im Netz weiterleitet).
    Bugfixes an der im AP entwickelten Software.
    AP1.b: Programmierung einer Z39.50-Schnittstelle von XML-Query und deren Implementierung im Server, z. B. als Java(R)-Servlet.
    Bugfixes an der im AP entwickelten Software.
    AP2.b: Onlinedokumentation der in AP1.x entwickelten Software.
    Durchführung einer Schulungsveranstaltung (evtl. am Rande der internationalen Tagung).
    AP2.c: Vorstellung des Projektes auf Tagungen und Messen.
    Weitere Aktivitäten basierend auf den Erkenntnissen von AP3.
    AP2.d: Bericht über die projektbegleitende Gremienarbeit.
    AP3: Publikation eines Artikels, der über den Verlauf des APs berichtet und ggf. darlegt, inwiefern sich die Auswertung des Nutzerverhaltens zur Optimierung der Nutzerakzeptanz eines Dienstes für die Wissenschaft nutzen läßt.

    4 Publikationen, Vorträge, Aktivitäten

    Eigene Arbeiten zum Gebiet des Projektes finden sich unter www.isn-oldenburg.de/pub_ger.html. Eine Auswahl der Publikationen sei hier gegeben:
    • K. Zimmermann, T. Severiens, E. R. Hilf:
      Ihre Homepage als Beitrag zu einem Fach-Informationsnetz
      Phys. Bl., April 2000, p. 3
    • E. R. Hilf:
      Elektronische Information für die Physik; (Grundsätze eines Informationsmanagements)
      Phys. Bl. 53 (1997) Nr. 4 311-315
    • U.M. Borghoff, E. R. Hilf, R. Pareschi, T. Severiens, H. Stamerjohanns, J. Willamowski:
      Agent-Based Document Retrieval for the European Physicists: A Project Overview Conference Report: Practical Applications of Intelligent Agents and Multi-Agents: PAAM'97; Second International Conference and Exhibition
      21-23 April 1997, London, UK
    • T. Severiens:
      The EuroPhysNet-Project
      Proceedings of the international Workshop of the AK-MetaDaten on 'MetaData: Qualifying WebObjects'
      Osnabrück 13-15 October 1997
    • H. Roosendaal, H. v. Riedesel, W. J. Westerhaus, H. Karch, E. R. Hilf:
      Informationsmanagement in der Physik: Ziele (Scope and Objective)
      Grundatz-Papier des Konsortium Physik der DPG, 1997
    • E. R. Hilf, T. Severiens:
      Distributed Physics Information on WWW - PhysNet Guidelines
      Europhysics News Extra: July-August 1996
    • E. R. Hilf, P. G. Bosswell, F. Laloë:
      Many Opportunities for Collaboration
      Europhysics News 27 (1996) 77
    • E. R. Hilf, G. Rohen, T. Severiens:
      Electronic Information Management in Physics
      Software-Entwicklung in der Chemie 10; Editor: J. Gasteiger; GDCh. (1996) pp 89-96; ISBN 3-924763-57-7
    • E. R. Hilf, B. Diekmann, H. Stamerjohanns, J. Curdes:
      Integrated Information Mangement for Physics
      The Information Revolution: Impact on Science and Technology; J.-E. Dubois, N. Gershon (Eds.); Springer-Verlag Berlin Heidelberg (1996) p.189-196. ISBN 3-540-60855-9.
    • E. R. Hilf:
      Integrated Information Management in Physics
      Proceedings of ,,APS E-PRINT Workshop``
      14. October 1994, Los Alamos, USA
    • J. Curdes, B. Diekmann, H. Stamerjohanns, E. R. Hilf:
      Distributed Data-base System for scientific (non-textual) data Proceedings of 'Data and Knowledge in a Changing World'
      September 1994, Chambery, France
    • E. R. Hilf:
      Elektronische Information und Kommunikation für das Bundesministerium für Forschung und Technologie BMFT
      Denkschrift für das BMFT, 29. July 1994
    • B. Diekmann, H. Stamerjohanns, E. R. Hilf:
      Der WWW-Server der DPG und die Anbindung an das Internet
      Plea for a www-server for the German Physical Society DPG,
      29. October 1994
    • E. R. Hilf, L. Weisel:
      Dringender Diskussionsbedarf - Wie soll die elektronische Information und Kommunikation in der Physik zukünftig aussehen?
      Phys. Bl. 50 (1994) Nr. 1, p. 65
    Einige Vorträge und Podiumsdiskussionen (in Auswahl):
    • Symposium ,,Elektronisches Publizieren``
      Fachkongreß ,,Schrift und Bild in Bewegung``
      Moderation: G. Jäger
      München, 27. Mai 2000
      www.hfg-karlsruhe.de/~ pjuerg/subib
    • Kongress ,,Information und Öffentlichkeit``
      DGI Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V. und Bundesvereinigung Deutscher Bibliotheksverbände e.V.
      Leipzig, 20.-23.2.2000 Wissenschaftliche Kommunikation
      ,,Nutzer - Metadata - Management``
      Vortrag: E. R. Hilf
      Manuskript: E. R. Hilf, T. Severiens, K. Zimmermann
      www.physik.uni-oldenburg.de/~ hilf/vortraege/dgi-2000/index.htm
    • O. Mülken:
      Dokumentenmanagement für Forschungsinstitute
      Alfred Wegener Institut für Polar- und Meeresforschung, Bremerhaven, 22.2.2000
    • The Future of Mathematical Communications, Berkeley 1.-5.12.1999;
      Invited Talk on ,,Professional Home Pages of Institutions and Scientists - New Add-on Services for Learned Societies - Coherence vs. Distributed Services for Learned Societies`` Vortrag: E. R. Hilf
      Manuskript: E. R. Hilf, T. Severiens, K. Zimmermann
      msri.org/publications/ln/msri/1999/fmc99/hilf/1/
    • E.R.Hilf:
      Integration of Research Institutes into the future world-wide network of scientific information
      Eingeladener Vortrag auf dem Workshop der Max Planck Gesellschaft MPG ,,The Transformation of Science``, Mai 1999
    • E.R.Hilf:
      Publikation von Wissenschaft an der Hochschule: Kooperation zwischen Wissenschaftlern und ihrer Bibliothek
      Eingeladener Vortrag auf der Tagung ,,Neue Organisaionsformen elektronischer Veröffentlichungen`` veranstaltet von der Universitätsbibliothek Dortmund und der Universitätsbibliothek Osnabrück, 23./24.11.1998
    • E. R. Hilf, T. Severiens:
      Publikation wissenschaftlicher Informationen
      Kolloquiumsvortrag Alfred Wegener Institut für Polar- und Meeresforschung, 11.11.1998
      www.physik.uni-oldenburg.de/~ hilf/vortraege/AWI/AWI.html
    • E.R.Hilf:
      Stand und Entwicklung von Aktivitäten der IuK-Kommision wissenschaftlicher Fachgesellschaften in Deutschland
      Eingeladener Vortrag: Göttingen; 5. Workshop des vdbiol-Arbeitskreises Information und Kommunikation (IuK) Informationsmanagement in den Biowissenschaften Teil 2, 4.12.1998, Göttingen
    • E. R. Hilf:
      Informations-Management für die Wissenschaft -- Eine Aufgabe der Bibliotheken?
      Eingeladener Vortrag, gehalten auf der elib98, 23./24. 11.1998, Dortmund
      www.physik.uni-oldenburg.de/~ hilf/vortraege/elib98.htm
    • T. Severiens:
      Elektronische Publikationen und Informations-Management in der Physik
      Conference Report: InetBib-2; Weiter auf dem Weg zur virtuellen Bibliothek! Bibliotheken nutzen das Internet. 10-11, März 1997, Potsdam
    • E. R. Hilf:
      Integrierendes Informations-Management in der Physik
      1. Sitzung der ELFIKOM Arbeitsgruppe elektronische Fachinformation und Kommunikation Deutsche Physikalische Gesellschaft DPG, 11. 7. 1994, Oldenburg
      www.physik.uni-oldenburg.de/~ hilf/vortraege/elfioldenbg/elfioldenbg/elfioldenbg.html
    • E. R. Hilf:
      Physik-Projekt
      Eingeladener Vortrag; Workshop der DMV, Deutsche Mathematiker Vereinigung, 28.6.1994 Halle; www.physik.uni-oldenburg.de/~ hilf/vortraege/halle-ebs.ps.gz
    • E. R. Hilf:
      Physik - Informatik
      Eingeladener Vortrag bei der Gesellschaft für Informatik GI
      4. 2. 1994, Darmstadt www.physik.uni-oldenburg.de/~ hilf/vortraege/gidarm.html
    Organisation von Arbeitstreffen und Konferenzen (in Auswahl): Tagungsteilnahmen (in Auswahl):
    • Buchmesse: Stand Dissertationen Online, K. Zimmermann: Rechtliches und Retrieval
      Frankfurt Oktober 1998 / 1999
      Leipzig März 2000
    • Workshop zur Fachinformation in der Physik
      Berlin 8.-10.3.1995
    • ELFIKOM DPG-DMV-GI-GDCh
      Kassel 16.1.1995
    • Konstituierung der gemeinsamen Unterkommission GI-Informatik-DPG-DMV-GDCh, Berlin 27. 9. 1994
    • Konstituierende Sitzung der Elfikom Initiative Elektronische Fachinformation und Kommunikation
      Oldenburg, 11.7. 1994
    Mitarbeit in Gremien (in Auswahl):
    • Cochairman Dublin Core ,,Special Interest Group DC:Research``
    • EPS (European Physical Society): Mitglied im Action Committee on Publication and Scientific Communication, Mitglied in der Internet Coordination Group (seit 1995)
    • DPG: Beauftragter des Vorstandes für Information und Kommunikation; Mitglied in der IuK-Physik
    • IuK Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland: Sprecher (1998/1999); Sprecher der AG Vernetzung
    • DINI www.dini.de Initiative Information der IuK, AMH, ZKI, dbv (Wissenschaftler, Medienzentren, Rechenzentren und Bibliotheken an Hochschulen): Mitglied des Vorstandes
    • Teilnehmer am Forum Fachinformation (Leitung: MdB Tauss)