Jan
20
2011
Wenn ich mir überlege, was für Kritiken ich bei meinen Veröffentlichungen bekommen habe, dann stellt sich mir doch die Frage, wie solch eine Studie so eine Aufmerksamkeit erlangen kann. Da behaupten doch tatsächlich zwei Harvard-Studenten, dass Google die Suchergebnisse manipulieren würde. Ich will gar nicht auf das Ergebnis eingehen, weil ich das weder bekräftigen möchte noch es entkräftigen möchte. Es geht mir nur um die Methodik.
Die beiden “Forscher” haben neben der Sortierung der Suchergebnisse untersucht, wie oft auf die entsprechenden Links geklickt wurde. Golem schreibt dazu:
Nun wollten die Forscher wissen, ob dieses Ranking auf die Qualität der angezeigten Treffer zurückzuführen oder einer eingebauten Voreingenommenheit geschuldet ist. Dazu untersuchten sie über vier Wochen die Click-Through-Rate (CTR) zweier unterschiedlicher Quellen für Suchergebnisse von Google, Yahoo und Bing.
Und jetzt das überraschende Ergebnis: Die Benutzer klicken i.d.R. die ersten Treffer häufiger an. Wenn allerdings Google-Dienste an dieser Stelle stehen (was bei der Suche nach email, etc. der Fall ist), dann werden andere Links häufiger geklickt. Die Begründung der Forscher klinkt erstmal logisch:
Das würde den Schluss nahelegen, dass die Nutzer die weiter unten stehenden Ergebnisse bevorzugen – stark genug, um den Effekt des höheren Rankings der mit dem jeweiligen Suchmaschinenanbieter verbundenen Websites zu überwinden.
Allerdings ist die Schlussfolgerung nicht logisch. Denn dieser Effekt wird mit einer wahrscheinlichen Manipulation der Suchergebnisse begründet. Viel wahrscheinlicher ist aber vielleicht, dass Google seine eigenen Dienste über die Navigation an der oberen Seitenleiste anbietet und die Benutzer, für die Google relevanter wäre, erst gar nicht suchen. Ich bin auf der Google-Seite zumindest noch nie auf die Idee gekommen, nach den Diensten zu suchen, da sie ja schon verlinkt sind. Warum zweimal klicken, wenn es einmal geht.
Ein klassischer Fall von “fail”! Da wurde eine offensichtlich nicht objektive Maßgröße zur Überprüfung einer These herangezogen.
Jan
14
2010
Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein:
- UIMA: der einzige OASIS Standard
- Heart of Gold: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. Für den Alltag halte ich das weniger für interessant. Vorteil ist, dass bereits eine recht große Anzahl an vorhandenen NLP-Tools integriert wurde.
- Weka: an sich eine nette DataMining-Architektur, bei größeren Datenmengen aber in meinen Tests nicht zu gebrauchen. Das System frisst einfach viel zu viel Speicher. Außerdem sind im Gegensatz zu den vorgenannten Systemen die Schnittstellen zwischen den Modulen nicht definiert, was eben auch eine wesentliche Aufgabe von UI Architekturen ist.
- GATE: Sicherlich eines der “Hauptkonkurrenten” zu UIMA mit einer sehr großen Funktionsvielfalt.
Jetzt gibt es natürlich noch andere Frameworks wie die AITools der Uni Weimar oder die Toolbox der Uni Leipzig, aber die sind eben nicht öffentlich verfügbar und werden zumindest derzeit auch nicht als OpenSource angeboten. Kommerzielle Systeme gibt es natürlich auch noch einige, aber die sind recht schwer zu evaluieren, weil man ja keinen direkten Zugriff darauf bekommt. Auch einfache Bibliotheken wie die openNLP Sammlung oder NLTK sind in dieser Liste nicht enthalten, weil es an sich keine Frameworks sind sondern eben Sammlungen von Bibliotheken.
Zu einem Framework gehört eben, dass sie eine Interaktionsschnittstelle zwischen unterschiedlichen Bibliotheken und Analyse-Methoden bilden und die Austauschbarkeit eben auch durch Standardisierung garantiert.
Hab ich welche vergessen? Her damit!
Jan
11
2010
Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von UIMA mal ausprobieren sollte, ob man das ganze noch mit Hadoop kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt eher viele Fragen als Antworten dazu gefunden. Hat jemand da schon Erfahrung?
Jan
11
2010
Die letzten Wochen hatte ich zwar Urlaub, aber trotzdem die ganze Zeit geackert
Hab ein Paper für ein Management-Journal geschrieben. Tja und wie das mal so ist, war das Format beliebig. Also Latex mit “article” Klasse rangezogen.
Jetzt hat mich an der Klasse aber extrem der Abstand von Bild und Caption gestört. Das gleiche gilt aber auch für Tabellen. Glücklicherweise kann man den Abstand aber sehr einfach korrigieren. Es gibt ein passendes Packet dafür:
\usepackage[justification=justified,singlelinecheck=false,labe lfont={bf,small,sf},font={small,sf},
aboveskip=0em,belowskip=0em]{caption}
Es ist halt so schön mit Latex: es gibt für alles eine App ein Packet.
Dez
22
2009
Nachdem nun ein paar Blogger bereits auf das deutsche Blogcorpus verwiesen haben, möchte ich hier mal den aktuellen Zwischenstand veröffentlichen.
Aktuell haben sich 64 Blogs bereits beteiligt. Der älteste Blogger ist dabei 65, der jüngste 17. Die Altersverteilung sieht wie folgt aus:

Wie man schön erkennen kann, haben wir für die Jahrgänge 1970 – 1985 schon eine anschauliche Zahl an Blogs. Ich denke, dass man mit denen durchaus schon was anfangen könnte. Für die Jahrgänge davor und insbesondere danach sieht es aber deutlich schlechter aus. Da ist es bisher unmöglich, die Verfahren zu testen.
Ähnlich sieht es bei der Geschlechtsverteilung aus:

Wie man leider sehen kann, sind Bloggerinnen deutlich unter repräsentiert.
Also liebe Bloggerinnen und Blogger – tragt das Projekt bitte weiter. Schreibt darüber in euren Blogs und in Twitter, damit noch mehr Blogger sich im Corpus registrieren. Gerne auch kritisch. So kann ich auch evtl. darauf reagieren.