Dez 17 2009

Blog-Analysen

Veröffentlicht by . Filed under: Doktorarbeit

Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.

Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers damit beschäftigt, ob man die Expertise eines Benutzers automatisch und objektiv bewerten kann. Dafür gibt es meiner Meinung nach eine relativ große Anzahl unterschiedlicher Indizien. Aber was Expertise und damit Qualität / Professionalität letztendlich ausmacht, das kommt auf die Fragestellung an. Jemand der nur mit Fachbegriffen um sich schmeißt, macht vielleicht einen professionellen Eindruck, aber liefert er damit eine hohe Qualität? Jemand, der auch mit “Anfänger-Fragen” umgehen kann bietet doch mindestens eine ebensolche Qualität. Einen objektiven Wert für Qualität gibt es demnach meiner Meinung nach nicht. Es kommt auf die Fragestellung an.

Mit Hilfe des Weblog-Corpus verspreche ich mir Antworten auf eine Reihe ganz anderer Fragen. Sie beruhen alle auf der Analyse des Schreibstils:

  • Verwenden Frauen mehr Adjektive?
  • Verwenden junge Menschen auffallend viel Slang-Begriffe? Also Begriffe, die nicht im Lexikon auftauchen?
  • Schreiben Beamte wirklich “umständlicher” – z.B. im Nominalstil?

Es gibt natürlich noch eine Reihe weiterer Fragen. Sie alle haben aber die Eigenschaft, dass man mit Hilfe von statistischen Verfahren versuchen will, Benutzereigenschaften zu bestimmen. Die große Frage lautet also: was sind die relevanten Eigenschaften. So hat z.B. Prof. Koppel herausgefunden, dass im englischen Raum die durchschnittliche Satzlänge auffallend stark mit dem Alter zusammenhängt. Auch bei Slang-Begriffen sei dies der Fall.

Für mich stellt sich eben die Frage: Funktionieren die Algorithmen im deutschen ebenso gut? Und was verrät man sonst noch über sich?

Um das bestimmen zu können braucht man also zur statistischen Relevanz einen relativ großen Corpus. Bisher haben sich knapp über 30 Blogs registriert. Das ist leider deutlich zu wenig. Ich würde mich also freuen, wenn ihr den Link weiter veröffentlichen könntet.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
5 responses so far

Dez 14 2009

Deutscher Blog-Corpus

Veröffentlicht by . Filed under: Doktorarbeit

Im Rahmen meiner Doktorarbeit stoße ich ständig auf ein Problem: im Bereich “User Generated Content” gibt es es kaum Corpora, mit denen man den Erfolg / Misserfolg der Algorithmen unter Beweis stellen kann. Besonders im deutschen Raum sieht es da sehr schlecht aus. Findet man im englischsprachigen Raum noch Daten wie den Corpus von Prof. Koppel mit dem unter anderem gezeigt werden konnte, dass man mit dem Schreibstil auf Alter und Geschlecht schließen kann (z.B. Effects of Age and Gender on Blogging oder Mining the Blogosphere: Age, gender and the varieties of self–expression), ist hier leider aus wissenschaftlicher Sicht tote Hose. Eine Vergleichbarkeit der Algorithmen ist meist nicht möglich – oft funktionieren sie gefühlt auch in deutscher Sprache nicht annähernd so gut wie in englischer Sprache. Das muss objektiv evaluiert werden.

Höchste Zeit, dass die Lücke also geschlossen wird. Ich habe deshalb eine Seite online gestellt, mit deren Hilfe ein deutscher Blog-Corpus erstellt werden soll. Jeder Blogbetreiber kann hierzu seine Blog-Adresse, sein Alter, sein Geschlecht und nach Möglichkeit auch seine Berufsgruppe hinterlegen. Ein Blog-Crawler ladet dann die Beiträge herunter und verknüpft die Daten entsprechend. Der daraus entstehende deutsche Blog-Corpus wird dann an der selben Stelle der Allgemeinheit für Forschungszwecke zur Verfügung gestellt.

Also deutsche Bloggerszene: helft der deutschsprachigen Forschung!

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Aug 07 2009

Musik: Reggie Watts – I Just Want To

Veröffentlicht by . Filed under: music

Was man alles mit Loopstations machen kann :D

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Aug 07 2009

Musik: Pogo – Expialidocious

Veröffentlicht by . Filed under: music

Was man alles durch kreativen Umgang mit bestehenden Werken machen kann ist ehrlich erstaunlich:

[via Piratenpartei]

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Jul 10 2009

Musik: DubFX – so sehen Künstler aus!

Veröffentlicht by . Filed under: music

Ich kann die Musikindustrie langsam nicht mehr hören, wenn sie das Internet nur als Gefahrenquelle für ihren Vertrieb sehen. Vielmehr sehe ich eine sehr große Chance für die Künstler, welche die Musikindustrie eben nicht mehr braucht, weil sie jetzt direkt an den Kunden gehen kann. Echte Künstler brauchen keine Musikindustrie, echte Künstler findet man auch so! Z.B. hier:

Dub FX ‘Love Someone’ from Ben Dowden on Vimeo.

Das Album kann man direkt auf der Seite von Dubfx kaufen.

[via bananajoe, Geeksaresexy]

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Next Entries » | « Previous Entries