DOARC

doarc: Erschließung von Zitationen in verteilten
Open-Access-Repositorien
(Distributed Open Access Reference Citation Services)

Entwicklung eines Random Markov Field Verfahrens zur maschinellen Analyse von Referenzen

Aktuell wird ein maschinelles Lernverfahren auf der Basis sog. Conditional Random Fields (CRFs1) entwickelt, um Referenzen automatisch analysieren zu können und insbesondere die einzelnen Felder einer Literaturangabe zu erkennen.

In der untenstehenden Tabelle sind die bisherigen Ergebnisse für einen Test-Datensatz von ca. 300 Referenzen angegeben. Zum Vergleich wurden die Testdaten mit der frei verfügbaren Software parsCit analysiert.


tagprecisionrecallf1
 parsCitdoarcparsCitdoarcparsCitdoarc
author 92.31 98.59 97.65 98.44 94.91 98.51
booktitle 11.01 89.55 7.59 37.97 8.99 53.33
date 86.61 94.37 99.55 98.64 92.63 96.46
institution 75.00 92.86 52.94 38.24 62.07 54.17
journal 94.37 89.62 53.88 94.71 68.59 92.10
location 51.06 81.48 80.00 73.33 62.34 77.19
note 26.32 78.95 9.62 28.85 14.08 42.25
pages 7.01 71.43 78.57 35.71 12.87 47.62
publisher 97.22 83.33 52.24 74.63 67.96 78.74
title 60.93 74.30 96.86 95.29 74.81 83.50
volume 82.68 93.98 82.03 97.66 82.35 95.79
[Alle Angaben in Prozent]

Aus den bisherigen Ergebnissen ist klar ersichtlich, dass die (bereits recht gute) Erkennungsrate von parsCit durch unsere Strategie weiter verbessert werden kann.

Derzeit untersuchen wir zum einen die Abhängigkeit der erzielten Genauigkeit von Anzahl und fachlicher Abdeckung der Trainingsdaten, zum anderen wird geprüft in welchem Ausmaß die Erkennungsrate durch das Einbinden von Normdaten (Autoren-, Institutionen-, Zeitschriften-,... Datenbanken) in einer Vorverarbeitungsphase verbessert werden kann.

Die von uns gewählt Strategie und Methodik sowie die ausführlichen Ergebnisse werden zur Publikation vorbereitet.


1Lafferty, J., McCallum, A., Pereira, F. (2001). "Conditional random fields: Probabilistic models for segmenting and labeling sequence data". Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289.

Letzte Änderung: 08.04.2011