Archive for the 'Doktorarbeit' Category

Dez 17 2009

Blog-Analysen

veröffentlicht von Mathias Bank. Abgelegt unter: Doktorarbeit

Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.

Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers damit beschäftigt, ob man die Expertise eines Benutzers automatisch und objektiv bewerten kann. Dafür gibt es meiner Meinung nach eine relativ große Anzahl unterschiedlicher Indizien. Aber was Expertise und damit Qualität / Professionalität letztendlich ausmacht, das kommt auf die Fragestellung an. Jemand der nur mit Fachbegriffen um sich schmeißt, macht vielleicht einen professionellen Eindruck, aber liefert er damit eine hohe Qualität? Jemand, der auch mit “Anfänger-Fragen” umgehen kann bietet doch mindestens eine ebensolche Qualität. Einen objektiven Wert für Qualität gibt es demnach meiner Meinung nach nicht. Es kommt auf die Fragestellung an.

Mit Hilfe des Weblog-Corpus verspreche ich mir Antworten auf eine Reihe ganz anderer Fragen. Sie beruhen alle auf der Analyse des Schreibstils:

  • Verwenden Frauen mehr Adjektive?
  • Verwenden junge Menschen auffallend viel Slang-Begriffe? Also Begriffe, die nicht im Lexikon auftauchen?
  • Schreiben Beamte wirklich “umständlicher” - z.B. im Nominalstil?

Es gibt natürlich noch eine Reihe weiterer Fragen. Sie alle haben aber die Eigenschaft, dass man mit Hilfe von statistischen Verfahren versuchen will, Benutzereigenschaften zu bestimmen. Die große Frage lautet also: was sind die relevanten Eigenschaften. So hat z.B. Prof. Koppel herausgefunden, dass im englischen Raum die durchschnittliche Satzlänge auffallend stark mit dem Alter zusammenhängt. Auch bei Slang-Begriffen sei dies der Fall.

Für mich stellt sich eben die Frage: Funktionieren die Algorithmen im deutschen ebenso gut? Und was verrät man sonst noch über sich?

Um das bestimmen zu können braucht man also zur statistischen Relevanz einen relativ großen Corpus. Bisher haben sich knapp über 30 Blogs registriert. Das ist leider deutlich zu wenig. Ich würde mich also freuen, wenn ihr den Link weiter veröffentlichen könntet.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 5 Reaktionen

Dez 14 2009

Deutscher Blog-Corpus

veröffentlicht von Mathias Bank. Abgelegt unter: Doktorarbeit

Im Rahmen meiner Doktorarbeit stoße ich ständig auf ein Problem: im Bereich “User Generated Content” gibt es es kaum Corpora, mit denen man den Erfolg / Misserfolg der Algorithmen unter Beweis stellen kann. Besonders im deutschen Raum sieht es da sehr schlecht aus. Findet man im englischsprachigen Raum noch Daten wie den Corpus von Prof. Koppel mit dem unter anderem gezeigt werden konnte, dass man mit dem Schreibstil auf Alter und Geschlecht schließen kann (z.B. Effects of Age and Gender on Blogging oder Mining the Blogosphere: Age, gender and the varieties of self–expression), ist hier leider aus wissenschaftlicher Sicht tote Hose. Eine Vergleichbarkeit der Algorithmen ist meist nicht möglich - oft funktionieren sie gefühlt auch in deutscher Sprache nicht annähernd so gut wie in englischer Sprache. Das muss objektiv evaluiert werden.

Höchste Zeit, dass die Lücke also geschlossen wird. Ich habe deshalb eine Seite online gestellt, mit deren Hilfe ein deutscher Blog-Corpus erstellt werden soll. Jeder Blogbetreiber kann hierzu seine Blog-Adresse, sein Alter, sein Geschlecht und nach Möglichkeit auch seine Berufsgruppe hinterlegen. Ein Blog-Crawler ladet dann die Beiträge herunter und verknüpft die Daten entsprechend. Der daraus entstehende deutsche Blog-Corpus wird dann an der selben Stelle der Allgemeinheit für Forschungszwecke zur Verfügung gestellt.

Also deutsche Bloggerszene: helft der deutschsprachigen Forschung!

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 2 Reaktionen

Apr 26 2009

Kommentar-Statistiken für Foren

veröffentlicht von Mathias Bank. Abgelegt unter: Doktorarbeit

So, ich hab jetzt ein paar Antworten auf meine Anfrage bekommen. Ich will mein bisherigen Stand hier mal veröffentlichen:

Ich habe 3.500 Beiträge analysiert. Ich habe dabei aus jedem Forum Stichproben zufällig ausgewählt. Beim letzten hinzugefügten Forum (danke an Ubuntuusers für ihre schön große Datenbasis) hat sich kaum etwas verändert, so dass ich von gefestigten Zahlen ausgehe.

  Zeichen Zeilenumbrüche
Mittelwert 320 4,3
0,25 Quartil 80,3 1
Median 187 2
0,75 Quartil 387 6
Standardabweichung 554,7 7,6

Interessant war dann noch für mich, wie viel der Beiträge keinen Zeilenumbruch haben und wie da die Verteilung der Zeichen aussieht:

Insgesamt sind 25% der Beiträge ohne Zeilenumbruch.

  Zeichen
Mittelwert 94
0,25 Quartil 17
Median 51
0,75 Quartil 104,25
Standardabweichung 146,86

Für Blog-Kommentare hab ich leider nicht genug Daten bisher. Also her damit ;)

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher keine Reaktion

Apr 23 2009

Kommentar-Statistiken

veröffentlicht von Mathias Bank. Abgelegt unter: Doktorarbeit

Ich muss ein paar Statistiken über Foren-Beiträge und nach Möglichkeit auch Blogs erstellen. Vielleicht kann mir ja der ein oder andere hier ein paar Daten liefern.

Ich brauche die Anzahl der Buchstaben (für Mittelwert- / Varianz-Berechnung) und die Anzahl der Zeilenumbrüche. In mySQL geht das ganz leicht:

Als erstes eine Funktion zum Zählen von bestimmten Zeichen:

Und dann noch die Abfrage:

Falls ihr eine sehr große Anzahl an Beiträgen habt, entfert das rand(), da die Abfrage sonst sehr lange dauern kann.

Wäre super, wenn ihr mir entweder per Kommentar oder per Mail an mathias _ at _ thunder-2000 _dot_ com das Ergebnis schicken könntet. Am liebsten als CSV-Datei. Bitte vermerkt, ob es ein Blog oder ein Forum war.

Update:
In UTF8-Tabellen zählt length falsch, weshalb ich die Funktionen jetzt auf CHAR_LENGTH geändert habe (danke an Nitek)

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 6 Reaktionen

Apr 21 2009

Semantische Korrektheit

veröffentlicht von Mathias Bank. Abgelegt unter: Doktorarbeit

Gerade die Bewertung für mein letztes Paper bekommen, in dem es um Foren-Strukturen geht. Und da heißt doch tatsächlich eine Kritik:

postings that are structured with ‘div’ or ‘table’ are not “semantically wrong”. The ‘div’ tag has no semantics other than “block element”, and the ‘table’ tag has all times been used to arrange things on Web pages

Also fassen wir das zusammen: nur weil es schon immer so gemacht wurde, heißt das, dass Tabellen semantisch für alles korrekt sind?!? Kann ja wohl nicht ernst gemeint sein. Ich lass das mit semantischer Korrektheit! Tabellen für die Trennung von Benutzerkommentaren in Foren sind und bleiben meiner Meinung nach semantisch falsch!

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 2 Reaktionen

neuere Beiträge » | « ältere Beiträge

^