Archive for October, 2008

Oct 31 2008

Warum lesen Leute Weblogs/Foren?

Published by Mathias Bank. Filed under: Doktorarbeit

Ich bin begeisterter Weblog-Fan. Häufig lese ich natürlich den Shopblogger, Beetlebum darf natürlich nicht fehlen (ich liebe diesen Blog), aber auch viele andere interessante Seiten sind in meinem Newsreader.

Jetzt fragt mein Chef doch tatsächlich:

Warum lesen Leute sowas?

Tja, hm, eigentlich eine sehr gute Frage. Bei Foren würde ich sagen: um sich zu informieren. Bei Weblogs würd ich hauptsächlich sagen: um den Alltag mal aus einer anderen Sichtweise zu sehen.

Warum lest ihr Weblogs? Kennt jemand eine psychologische Ausarbeitung darüber? Vielleicht ein paar Paper?

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Oct 30 2008

Beiträge lassen sich extrahieren :)

Published by Mathias Bank. Filed under: Doktorarbeit

Nachdem ich mit einer Anpassung des SiteStyleTree-Algorithmus auf den Content-Bereich gekommen bin, bestand ja die Aufgabe, direkt an die Beiträge ran zu kommen, den Content-Bereich also aufzuspalten. Für solche “Data Records” wurden schon einige Paper veröffentlicht. Am interessantesten fand ich dazu das Paper “Mining Data Records in Web Pages” von Bing Liu, das wiederholende Strukturen im DOM-Baum sucht. Das ganze basiert auf der Idee, Teilbäume miteinander zu vergleichen. Und das schöne daran: die Idee kommt aus einem ganz anderen Sektor, nämlich der Programm-Analyse. So stellt Wuu Yang in “Idenfying Syntactic Differences Between Two Programs” einen Algorithmus vor, mit dem eine Ähnlichkeit zwischen zwei Teilbäumen berechnet werden kann. Das wird an unterschiedlichsten Stellen verwendet, z.B. bei DIFF-Programmen.

Jetzt gibt es natürlich eine Vielzahl an unterschiedlichen Vorgehensweisen, um Gruppen zu finden. Das beginnt bei einigen Klassifizierungsverfahren und geht bis hin zu unüberwachten Cluster-Verfahren. Das ist mit Hilfe der Ähnlichkeitsberechnung ja auch kein Problem.

Allerdings sind die bisherigen Ansätze eher auf Produkt-Listen ausgerichtet. In Foren haben die Unterbäume teilweise eine sehr unterschiedliche Struktur (Zietierungen, Bilder, Links), so dass das Ähnlichkeitsmaß nur bedingt nützlich ist. Man könnte natürlich wie Yeonjung Kim et. al die Knoten unterschiedlich gewichten, das löst das Problem aber auch nur bedingt, weil viele Forensysteme Tabellen für Zietierung und Beitragstruktur verwenden (über diesen Schwachsinn lass ich mich jetzt lieber nicht aus). Ich hab mir deshalb jetzt einen ganz anderen Einsatz einfallen lassen, der die Beiträge in unterschiedlichsten Systemen (inkl. Weblogs) erkennen kann. Eine mögliche Hierarchie und damit Verschachtelung in den Beiträgen ist dabei ebenso berücksichtigt, wie die unterschiedlichsten Formatierungsmöglichkeiten (semantisch sauber oder HTML-Gemurkse).

Wie das ganze funktioniert, werde ich natürlich in einem Paper veröffentlichen. Jetzt muss ich es erstmal ausgiebig austesten.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Oct 29 2008

Sind Gewerkschaften naiv?

Published by Mathias Bank. Filed under: The World Wide Web

Also da fordert die IG-Metall 8% Lohnerhöhung. Das lass ich mal so dahingestellt und bewerte es nicht. Jetzt gehen die Arbeitgeber darauf natürlich nicht ein und werden - wir kennen das ja - ein sehr schlechtes Gegenangebot machen. Tja und da “droht” die Gewerkschaft doch allen ernstes, dass sie dann streiken will. Haben die in letzter Zeit keine Nachrichten gelesen? Die meisten Automobilhersteller wollen die Mitarbeiter in Zwangsurlaub schicken, damit nicht so viele Autos gebaut werden. Denen ist es doch gerade recht, wenn die Leute streiken, muss die Gewerkschaft doch den Lohn zahlen. Was besseres kann doch den Arbeitgebern gar nicht passieren.

Also aus meiner Sicht können die Gewerkschaften gerade nur verlieren. Oder hab ich da was wichtiges nicht gesehen?

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Oct 28 2008

Dokumentation

Published by Mathias Bank. Filed under: Programming

Ich hab vor einer Weile angefangen, für mein Shop-System ein Modul für ein spezielles Bezahlverfahren zu implementieren. Eigentlich sollte das nicht schwer sein. Dummerweise bekam ich vom Betreiber jedoch als Dokumentation nur eine “Beispiel-CSV”-Datei für den Export bekommen. Jetzt, nachdem ich eigentlich fertig sein wollte kommt die erste Mail:

Die Datei hält sich nicht an die Namenskonventionen.

Welche Namenskonventionen? Wurde mir nichts mitgeteilt. Also wieder ändern. Nächste Mail

Die CSV-Datei enthält Begrenzungszeichen in den Feldern.

Richtig, hält sich an den RFC 4180-Standard. Aber kann man ja ändern (wie sinnvoll das ist, sei mal dahingestellt). Nächste Mail:

Die Kundennummer darf nicht “0″ sein.

Im Shop bestellen nun mal einige Kunden als Gast - bekommen vom System genau deshalb keine Kundennummer. Was soll ich denn sonst für eine Nummer geben?

Langsam bin ich leicht genervt. An sich einfache Systeme, wenn man sie wirklich gescheit dokumentieren würde. Bin mal gespannt, was noch kommt. Wenigstens haben sie keine Probleme mit den Zeilenumbrüchen oder der UTF8-Kodierung.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
One response so far

Oct 27 2008

XML-Parsing in Java

Published by Mathias Bank. Filed under: Doktorarbeit, Java

Im Rahmen meiner Dissertation arbeite ich recht viel mit Java. Ich finde es unglaublich, was die XML-Behandlung da für ein Gefrickel ist, weil von SUN nur die Interfaces zur Verfügung gestellt werden. Dadurch hat man natürlich lauter unterschiedliche Implementierungen, die auch nicht gerade kompatibel zu einander sind. Sehr nervig!

Relativ gut finde ich die Bibliothek dom4j für die XML-Verarbeitung. Das schöne ist die Grundidee an der Bibliothek:

Just as no single List implementation will suffice (the JDK comes with at least 3) we believe we need a framework allowing plug and play XML document implementations. For some users, using a LinkedList performs better than an ArrayList because their usage characteristics differ. Others like to use a Vector as it is synchronized. We believe an XML model should have the same flexibility.

So kann man dann einfach ein DOM-Baum mit folgendem Code einlesen lassen:

Die Variable enthält dabei nicht nur ein Document, sondern ein DOMDocument, das kompatibel zum Interface w3c.Document ist.

Recht elegant gemacht, finde ich. Leider nur schlecht dokumentiert, hat ne ganze Weile gedauert, bis ich das rausgefunden habe.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

« Previous Entries

^