Dez 17 2009
Blog-Analysen
Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.
Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers damit beschäftigt, ob man die Expertise eines Benutzers automatisch und objektiv bewerten kann. Dafür gibt es meiner Meinung nach eine relativ große Anzahl unterschiedlicher Indizien. Aber was Expertise und damit Qualität / Professionalität letztendlich ausmacht, das kommt auf die Fragestellung an. Jemand der nur mit Fachbegriffen um sich schmeißt, macht vielleicht einen professionellen Eindruck, aber liefert er damit eine hohe Qualität? Jemand, der auch mit “Anfänger-Fragen” umgehen kann bietet doch mindestens eine ebensolche Qualität. Einen objektiven Wert für Qualität gibt es demnach meiner Meinung nach nicht. Es kommt auf die Fragestellung an.
Mit Hilfe des Weblog-Corpus verspreche ich mir Antworten auf eine Reihe ganz anderer Fragen. Sie beruhen alle auf der Analyse des Schreibstils:
- Verwenden Frauen mehr Adjektive?
- Verwenden junge Menschen auffallend viel Slang-Begriffe? Also Begriffe, die nicht im Lexikon auftauchen?
- Schreiben Beamte wirklich “umständlicher” – z.B. im Nominalstil?
Es gibt natürlich noch eine Reihe weiterer Fragen. Sie alle haben aber die Eigenschaft, dass man mit Hilfe von statistischen Verfahren versuchen will, Benutzereigenschaften zu bestimmen. Die große Frage lautet also: was sind die relevanten Eigenschaften. So hat z.B. Prof. Koppel herausgefunden, dass im englischen Raum die durchschnittliche Satzlänge auffallend stark mit dem Alter zusammenhängt. Auch bei Slang-Begriffen sei dies der Fall.
Für mich stellt sich eben die Frage: Funktionieren die Algorithmen im deutschen ebenso gut? Und was verrät man sonst noch über sich?
Um das bestimmen zu können braucht man also zur statistischen Relevanz einen relativ großen Corpus. Bisher haben sich knapp über 30 Blogs registriert. Das ist leider deutlich zu wenig. Ich würde mich also freuen, wenn ihr den Link weiter veröffentlichen könntet.

