Archive for Januar, 2010

Jan 14 2010

Unstructured Information Architectures

Veröffentlicht by . Filed under: Doktorarbeit

Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein:

  • UIMA: der einzige OASIS Standard
  • Heart of Gold: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. Für den Alltag halte ich das weniger für interessant. Vorteil ist, dass bereits eine recht große Anzahl an vorhandenen NLP-Tools integriert wurde.
  • Weka: an sich eine nette DataMining-Architektur, bei größeren Datenmengen aber in meinen Tests nicht zu gebrauchen. Das System frisst einfach viel zu viel Speicher. Außerdem sind im Gegensatz zu den vorgenannten Systemen die Schnittstellen zwischen den Modulen nicht definiert, was eben auch eine wesentliche Aufgabe von UI Architekturen ist.
  • GATE: Sicherlich eines der “Hauptkonkurrenten” zu UIMA mit einer sehr großen Funktionsvielfalt.

Jetzt gibt es natürlich noch andere Frameworks wie die AITools der Uni Weimar oder die Toolbox der Uni Leipzig, aber die sind eben nicht öffentlich verfügbar und werden zumindest derzeit auch nicht als OpenSource angeboten. Kommerzielle Systeme gibt es natürlich auch noch einige, aber die sind recht schwer zu evaluieren, weil man ja keinen direkten Zugriff darauf bekommt. Auch einfache Bibliotheken wie die openNLP Sammlung oder NLTK sind in dieser Liste nicht enthalten, weil es an sich keine Frameworks sind sondern eben Sammlungen von Bibliotheken.

Zu einem Framework gehört eben, dass sie eine Interaktionsschnittstelle zwischen unterschiedlichen Bibliotheken und Analyse-Methoden bilden und die Austauschbarkeit eben auch durch Standardisierung garantiert.

Hab ich welche vergessen? Her damit!

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Jan 11 2010

Hadoop mit UIMA

Veröffentlicht by . Filed under: Doktorarbeit

Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von UIMA mal ausprobieren sollte, ob man das ganze noch mit Hadoop kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt eher viele Fragen als Antworten dazu gefunden. Hat jemand da schon Erfahrung?

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
One response so far

Jan 11 2010

Latex: Abstand Bildunterschrift

Veröffentlicht by . Filed under: Doktorarbeit

Die letzten Wochen hatte ich zwar Urlaub, aber trotzdem die ganze Zeit geackert :( Hab ein Paper für ein Management-Journal geschrieben. Tja und wie das mal so ist, war das Format beliebig. Also Latex mit “article” Klasse rangezogen.

Jetzt hat mich an der Klasse aber extrem der Abstand von Bild und Caption gestört. Das gleiche gilt aber auch für Tabellen. Glücklicherweise kann man den Abstand aber sehr einfach korrigieren. Es gibt ein passendes Packet dafür:


\usepackage[justification=justified,singlelinecheck=false,labe lfont={bf,small,sf},font={small,sf},
aboveskip=0em,belowskip=0em]{caption}

Es ist halt so schön mit Latex: es gibt für alles eine App ein Packet.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

^