Archive for the 'Doktorarbeit' Category

Okt 30 2008

Beiträge lassen sich extrahieren :)

Veröffentlicht by . Filed under: Doktorarbeit

Nachdem ich mit einer Anpassung des SiteStyleTree-Algorithmus auf den Content-Bereich gekommen bin, bestand ja die Aufgabe, direkt an die Beiträge ran zu kommen, den Content-Bereich also aufzuspalten. Für solche “Data Records” wurden schon einige Paper veröffentlicht. Am interessantesten fand ich dazu das Paper “Mining Data Records in Web Pages” von Bing Liu, das wiederholende Strukturen im DOM-Baum sucht. Das ganze basiert auf der Idee, Teilbäume miteinander zu vergleichen. Und das schöne daran: die Idee kommt aus einem ganz anderen Sektor, nämlich der Programm-Analyse. So stellt Wuu Yang in “Idenfying Syntactic Differences Between Two Programs” einen Algorithmus vor, mit dem eine Ähnlichkeit zwischen zwei Teilbäumen berechnet werden kann. Das wird an unterschiedlichsten Stellen verwendet, z.B. bei DIFF-Programmen.

Jetzt gibt es natürlich eine Vielzahl an unterschiedlichen Vorgehensweisen, um Gruppen zu finden. Das beginnt bei einigen Klassifizierungsverfahren und geht bis hin zu unüberwachten Cluster-Verfahren. Das ist mit Hilfe der Ähnlichkeitsberechnung ja auch kein Problem.

Allerdings sind die bisherigen Ansätze eher auf Produkt-Listen ausgerichtet. In Foren haben die Unterbäume teilweise eine sehr unterschiedliche Struktur (Zietierungen, Bilder, Links), so dass das Ähnlichkeitsmaß nur bedingt nützlich ist. Man könnte natürlich wie Yeonjung Kim et. al die Knoten unterschiedlich gewichten, das löst das Problem aber auch nur bedingt, weil viele Forensysteme Tabellen für Zietierung und Beitragstruktur verwenden (über diesen Schwachsinn lass ich mich jetzt lieber nicht aus). Ich hab mir deshalb jetzt einen ganz anderen Einsatz einfallen lassen, der die Beiträge in unterschiedlichsten Systemen (inkl. Weblogs) erkennen kann. Eine mögliche Hierarchie und damit Verschachtelung in den Beiträgen ist dabei ebenso berücksichtigt, wie die unterschiedlichsten Formatierungsmöglichkeiten (semantisch sauber oder HTML-Gemurkse).

Wie das ganze funktioniert, werde ich natürlich in einem Paper veröffentlichen. Jetzt muss ich es erstmal ausgiebig austesten.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Okt 27 2008

XML-Parsing in Java

Veröffentlicht by . Filed under: Doktorarbeit,Java

Im Rahmen meiner Dissertation arbeite ich recht viel mit Java. Ich finde es unglaublich, was die XML-Behandlung da für ein Gefrickel ist, weil von SUN nur die Interfaces zur Verfügung gestellt werden. Dadurch hat man natürlich lauter unterschiedliche Implementierungen, die auch nicht gerade kompatibel zu einander sind. Sehr nervig!

Relativ gut finde ich die Bibliothek dom4j für die XML-Verarbeitung. Das schöne ist die Grundidee an der Bibliothek:

Just as no single List implementation will suffice (the JDK comes with at least 3) we believe we need a framework allowing plug and play XML document implementations. For some users, using a LinkedList performs better than an ArrayList because their usage characteristics differ. Others like to use a Vector as it is synchronized. We believe an XML model should have the same flexibility.

So kann man dann einfach ein DOM-Baum mit folgendem Code einlesen lassen:

SAXReader reader = new SAXReader(DOMDocumentFactory.getInstance(), false);
Document doc = reader.read(this.getContentReader());

Die Variable enthält dabei nicht nur ein Document, sondern ein DOMDocument, das kompatibel zum Interface w3c.Document ist.

Recht elegant gemacht, finde ich. Leider nur schlecht dokumentiert, hat ne ganze Weile gedauert, bis ich das rausgefunden habe.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Okt 14 2008

CSS und Style-Angaben

Veröffentlicht by . Filed under: Doktorarbeit

Hab mich gerade gefragt, ob es möglich ist, eine Diskussion im Forum so zu formatieren, dass man nur tr-Tags ohne zusätzliche Klasse oder Style-Angabe machen kann und ob man das trotzdem ohne JavaScript formatieren kann. Also so:

title1
Text1
title2
Text2

Tja, und es würde gehen. Dafür gibt’s den CSS3-Pseudo-Selector nth-child, der auch schon in FF 3.1 enthalten sein soll.

Wenn ich also ein langfristiges System zum Trennen von Einzelbeiträgen anziele, dann kann ich mich auf eine unterschiedliche Code-Struktur je Beitrag nicht verlassen. Also nochmal zu den Notizblättern :(

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Sep 26 2008

Erstes Paper: “Generalization of Hierarchical Crisp Clustering Algorithms to Fuzzy Logic”

Veröffentlicht by . Filed under: Doktorarbeit

So, mein erstes Paper ist fertig. Es trägt den alles sagenden Namen (wirklich) “Generalization of Hierarchical Crisp Clustering Algorithms to Fuzzy Logic”. Meiner Meinung nach ein schönes Stück Arbeit :)

Liegt jetzt beim Chef, weil es erst als Publikation freigegeben werden muss (gut, vielleicht etwas realitätsfremd, aber was soll’s), bin aber zuversichtlich. Mehr Sorgen machen mir die Editoren. Bin mal gespannt, was da als Reaktion zurückkommt.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
One response so far

Sep 23 2008

Ahhhhhhhhhhhhhh!

Veröffentlicht by . Filed under: Doktorarbeit

Manchmal denke ich mir schon, dass es am besten ist, wenn ich Aufträge gar nicht mehr nach außen gebe!

Gerade per Mail bekommen:

As suggested by you, we are testing the code more deeply and fixing the bugs as and when they appear.

DASS MAN ÜBERHAUPT DARÜBER DISKUTIEREN MUSS *kopfschüttel*

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Next Entries » | « Previous Entries

^