<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.3.3" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Mathias Bank</title>
	<link>http://www.mathias-bank.de</link>
	<description>what's moving me</description>
	<pubDate>Thu, 14 Jan 2010 08:48:28 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.3.3</generator>
	<language>en</language>
			<item>
		<title>Unstructured Information Architectures</title>
		<link>http://www.mathias-bank.de/2010/01/14/unstructured-information-architectures/</link>
		<comments>http://www.mathias-bank.de/2010/01/14/unstructured-information-architectures/#comments</comments>
		<pubDate>Thu, 14 Jan 2010 08:48:28 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2010/01/14/unstructured-information-architectures/</guid>
		<description><![CDATA[Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein:

UIMA: der einzige OASIS Standard
Heart of Gold: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. Für den [...]]]></description>
			<content:encoded><![CDATA[<p>Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein:</p>
<ul>
<li><a href="http://incubator.apache.org/uima/">UIMA</a>: der einzige OASIS Standard</li>
<li><a href="http://heartofgold.opendfki.de/">Heart of Gold</a>: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. Für den Alltag halte ich das weniger für interessant. Vorteil ist, dass bereits eine recht große Anzahl an vorhandenen NLP-Tools integriert wurde.</li>
<li><a href="http://www.cs.waikato.ac.nz/ml/weka/">Weka</a>: an sich eine nette DataMining-Architektur, bei größeren Datenmengen aber in meinen Tests nicht zu gebrauchen. Das System frisst einfach viel zu viel Speicher. Außerdem sind im Gegensatz zu den vorgenannten Systemen die Schnittstellen zwischen den Modulen nicht definiert, was eben auch eine wesentliche Aufgabe von UI Architekturen ist.</li>
<li><a href="http://gate.ac.uk/">GATE</a>: Sicherlich eines der &#8220;Hauptkonkurrenten&#8221; zu UIMA mit einer sehr großen Funktionsvielfalt.</li>
</ul>
<p>Jetzt gibt es natürlich noch andere Frameworks wie die <a href="http://www.uni-weimar.de/cms/index.php?id=10585">AITools</a> der Uni Weimar oder die Toolbox der <a href="http://www.asv.informatik.uni-leipzig.de/">Uni Leipzig</a>, aber die sind eben nicht öffentlich verfügbar und werden zumindest derzeit auch nicht als OpenSource angeboten. Kommerzielle Systeme gibt es natürlich auch noch einige, aber die sind recht schwer zu evaluieren, weil man ja keinen direkten Zugriff darauf bekommt. Auch einfache Bibliotheken wie die <a href="http://opennlp.sourceforge.net/">openNLP</a> Sammlung oder <a href="http://www.nltk.org/">NLTK</a> sind in dieser Liste nicht enthalten, weil es an sich keine Frameworks sind sondern eben Sammlungen von Bibliotheken. </p>
<p>Zu einem Framework gehört eben, dass sie eine Interaktionsschnittstelle zwischen unterschiedlichen Bibliotheken und Analyse-Methoden bilden und die Austauschbarkeit eben auch durch Standardisierung garantiert.</p>
<p>Hab ich welche vergessen? Her damit!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2010/01/14/unstructured-information-architectures/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Hadoop mit UIMA</title>
		<link>http://www.mathias-bank.de/2010/01/11/hadoop-mit-uima/</link>
		<comments>http://www.mathias-bank.de/2010/01/11/hadoop-mit-uima/#comments</comments>
		<pubDate>Mon, 11 Jan 2010 20:24:50 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2010/01/11/hadoop-mit-uima/</guid>
		<description><![CDATA[Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von UIMA mal ausprobieren sollte, ob man das ganze noch mit Hadoop kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt [...]]]></description>
			<content:encoded><![CDATA[<p>Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von <a href="http://incubator.apache.org/uima/">UIMA</a> mal ausprobieren sollte, ob man das ganze noch mit <a href="http://hadoop.apache.org/">Hadoop</a> kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt eher viele Fragen als Antworten dazu gefunden. Hat jemand da schon Erfahrung?</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2010/01/11/hadoop-mit-uima/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Latex: Abstand Bildunterschrift</title>
		<link>http://www.mathias-bank.de/2010/01/11/latex-abstand-bildunterschrift/</link>
		<comments>http://www.mathias-bank.de/2010/01/11/latex-abstand-bildunterschrift/#comments</comments>
		<pubDate>Mon, 11 Jan 2010 20:15:44 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2010/01/11/latex-abstand-bildunterschrift/</guid>
		<description><![CDATA[Die letzten Wochen hatte ich zwar Urlaub, aber trotzdem die ganze Zeit geackert  Hab ein Paper für ein Management-Journal geschrieben. Tja und wie das mal so ist, war das Format beliebig. Also Latex mit &#8220;article&#8221; Klasse rangezogen.
Jetzt hat mich an der Klasse aber extrem der Abstand von Bild und Caption gestört. Das gleiche gilt [...]]]></description>
			<content:encoded><![CDATA[<p>Die letzten Wochen hatte ich zwar Urlaub, aber trotzdem die ganze Zeit geackert <img src='http://www.mathias-bank.de/wp-includes/images/smilies/icon_sad.gif' alt=':(' class='wp-smiley' /> Hab ein Paper für ein Management-Journal geschrieben. Tja und wie das mal so ist, war das Format beliebig. Also Latex mit &#8220;article&#8221; Klasse rangezogen.</p>
<p>Jetzt hat mich an der Klasse aber extrem der Abstand von Bild und Caption gestört. Das gleiche gilt aber auch für Tabellen. Glücklicherweise kann man den Abstand aber sehr einfach korrigieren. Es gibt ein passendes Packet dafür:</p>
<p><code><br />
\usepackage[justification=justified,singlelinecheck=false,labe lfont={bf,small,sf},font={small,sf},<br />
aboveskip=0em,belowskip=0em]{caption}<br />
</code></p>
<p>Es ist halt so schön mit Latex: es gibt für alles <del>eine App</del> ein Packet.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2010/01/11/latex-abstand-bildunterschrift/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Apache: kein mod_rewrite bei existierender Datei</title>
		<link>http://www.mathias-bank.de/2009/12/23/apache-kein-mod_rewrite-bei-existierender-datei/</link>
		<comments>http://www.mathias-bank.de/2009/12/23/apache-kein-mod_rewrite-bei-existierender-datei/#comments</comments>
		<pubDate>Wed, 23 Dec 2009 20:55:22 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[PHP]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/12/23/apache-kein-mod_rewrite-bei-existierender-datei/</guid>
		<description><![CDATA[Ich bin mir sicher, eines der großen On-Page-SEO-Themen im nächsten Jahr wird sein, wie man die Auslieferung einer Seite beschleunigen kann. Es sollte geradezu offensichtlich sein, dass man am meisten in PHP-Programmen sparen kann, wenn man PHP erst gar nicht aufruft. Deshalb ist eine mögliche Idee, die generierten Seiten mittels PHP rausschreiben zu lassen und [...]]]></description>
			<content:encoded><![CDATA[<p>Ich bin mir sicher, eines der großen On-Page-SEO-Themen im nächsten Jahr wird sein, wie man die Auslieferung einer Seite beschleunigen kann. Es sollte geradezu offensichtlich sein, dass man am meisten in PHP-Programmen sparen kann, wenn man PHP erst gar nicht aufruft. Deshalb ist eine mögliche Idee, die generierten Seiten mittels PHP rausschreiben zu lassen und dann diese direkt auszuliefern.</p>
<p>Das möchte ich jetzt an einigen Stellen auch bei meinen Framework-Modulen forcieren. Da ich aber sehr stark auf mod_rewrite gesetzt habe, stellt sich die Frage, wie ich das am einfachsten bewältigen kann. Die Antwort liefert mir dieser Code:</p>
<p><code><br />
 RewriteCond %{DOCUMENT_ROOT}%{REQUEST_URI}      -f<br />
 RewriteRule ^ %{DOCUMENT_ROOT}%{REQUEST_URI}    [L]<br />
</code></p>
<p>Der macht nichts anderes wie dem Apache zu sagen: falls es eine echte Datei mit diesem Namen gibt, dann leite nicht auf andere Dateien - in meinem Fall PHP-Dateien - um. Sehr nützlich!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/12/23/apache-kein-mod_rewrite-bei-existierender-datei/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Deutscher Blogcorpus - Zwischenstand</title>
		<link>http://www.mathias-bank.de/2009/12/22/deutscher-blogcorpus-zwischenstand/</link>
		<comments>http://www.mathias-bank.de/2009/12/22/deutscher-blogcorpus-zwischenstand/#comments</comments>
		<pubDate>Tue, 22 Dec 2009 15:38:05 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/12/22/deutscher-blogcorpus-zwischenstand/</guid>
		<description><![CDATA[Nachdem nun ein paar Blogger bereits auf das deutsche Blogcorpus verwiesen haben, möchte ich hier mal den aktuellen Zwischenstand veröffentlichen.
Aktuell haben sich 64 Blogs bereits beteiligt. Der älteste Blogger ist dabei 65, der jüngste 17. Die Altersverteilung sieht wie folgt aus:

Wie man schön erkennen kann, haben wir für die Jahrgänge 1970 - 1985 schon eine [...]]]></description>
			<content:encoded><![CDATA[<p>Nachdem nun ein paar Blogger bereits auf das <a href="http://www.mathias-bank.de/blogcorpus/">deutsche Blogcorpus</a> verwiesen haben, möchte ich hier mal den aktuellen Zwischenstand veröffentlichen.</p>
<p>Aktuell haben sich 64 Blogs bereits beteiligt. Der älteste Blogger ist dabei 65, der jüngste 17. Die Altersverteilung sieht wie folgt aus:</p>
<p><img src='http://www.mathias-bank.de/wp-content/uploads/2009/12/graph2.png' alt='Altersverteilung Blog-Corpus Dez 2009' /></p>
<p>Wie man schön erkennen kann, haben wir für die Jahrgänge 1970 - 1985 schon eine anschauliche Zahl an Blogs. Ich denke, dass man mit denen durchaus schon was anfangen könnte. Für die Jahrgänge davor und insbesondere danach sieht es aber deutlich schlechter aus. Da ist es bisher unmöglich, die Verfahren zu testen.</p>
<p>Ähnlich sieht es bei der Geschlechtsverteilung aus:</p>
<p><img src='http://www.mathias-bank.de/wp-content/uploads/2009/12/graph3.png' alt='Geschlechtsverteilung Blog-Corpus Dez 2009' /></p>
<p>Wie man leider sehen kann, sind Bloggerinnen deutlich unter repräsentiert.</p>
<p>Also liebe Bloggerinnen und Blogger - tragt das Projekt bitte weiter. Schreibt darüber in euren Blogs und in Twitter, damit noch mehr Blogger sich im Corpus registrieren. Gerne auch kritisch. So kann ich auch evtl. darauf reagieren.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/12/22/deutscher-blogcorpus-zwischenstand/feed/</wfw:commentRss>
		</item>
		<item>
		<title>UIMA - eine Einführung</title>
		<link>http://www.mathias-bank.de/2009/12/22/uima-eine-einfuhrung/</link>
		<comments>http://www.mathias-bank.de/2009/12/22/uima-eine-einfuhrung/#comments</comments>
		<pubDate>Tue, 22 Dec 2009 14:14:35 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/12/22/uima-eine-einfuhrung/</guid>
		<description><![CDATA[Im Rahmen meiner Doktorarbeit habe ich mir inzwischen eine Reihe unterschiedlichster Systeme zur Verarbeitung von Texten (NLP Tools) angeschaut. Hier gibt es inzwischen auch eine ganze Reihe freier Implementierungen, am bekanntesten sind sicherlich folgende:

Natural Language Toolkit: eine Sammlung von python-Modulen
Weka: An sich eher ein Data-Mining-System, das aber auch &#8220;einfache&#8221; Module für Text-Verarbeitung anbietet. Scheitert aber [...]]]></description>
			<content:encoded><![CDATA[<p>Im Rahmen meiner Doktorarbeit habe ich mir inzwischen eine Reihe unterschiedlichster Systeme zur Verarbeitung von Texten (<acronym title="Natural Language Processing">NLP</acronym> Tools) angeschaut. Hier gibt es inzwischen auch eine ganze Reihe freier Implementierungen, am bekanntesten sind sicherlich folgende:</p>
<ul>
<li><a href="http://www.nltk.org/">Natural Language Toolkit</a>: eine Sammlung von python-Modulen</li>
<li><a href="http://www.cs.waikato.ac.nz/~ml/">Weka</a>: An sich eher ein Data-Mining-System, das aber auch &#8220;einfache&#8221; Module für Text-Verarbeitung anbietet. Scheitert aber sehr schnell an der Datenmenge (wir haben allein im <a href="http://www.mathias-bank.de/2007/06/07/wie-ticken-suchmaschinen-sicht-aus-dem-bereich-text-mining/">Vektorraum-Model</a> schnell Dimensionen &gt; 70.000)</li>
<li><a href="http://opennlp.sourceforge.net/">Open NLP</a>: eine recht interessante Sammlung an NLP Bibliotheken</li>
</ul>
<p>Sicher gibt es noch eine große Anzahl anderer &#8220;Insellösungen&#8221;. Das Problem ist nur, dass sie in der Praxis kaum zu verwenden sind. Hauptsächlich liegt es daran, dass den Systemen eine saubere Basisarchitektur für sehr große Datenmengen fehlt. Und hier kommt <a href="http://incubator.apache.org/uima/">UIMA</a> ins Spiel.</p>
<p>UIMA steht für &#8220;Unstructured Information Management Architecture&#8221; und wurde ursprünglich von IBM entwickelt. Wie der Name schon sagt ist es eigentlich kein System zur Text-Verarbeitung, sondern eine Architektur, mit der sich beliebige unstrukturierte Daten - also auch Bilder und Sound - verarbeiten lassen.</p>
<p>UIMA stellt dem Entwickler eine sehr einfaches System zur Verfügung, mit dem in einem linearen Prozess Daten aus einer beliebigen Datenquelle eingelesen, verarbeitet und wieder gespeichert werden können. Somit besteht eine UIMA-Architektur immer aus drei Hauptkomponenten:</p>
<ul>
<li>Reader: liest die Daten ein.</li>
<li>Processor: verarbeitet die Daten. In der Regel werden mehrere Prozessoren - im UIMA-Jargon Annotatoren genannt - hintereinander geschaltet.</li>
<li>Consumer: schreibt die Daten wieder raus.</li>
</ul>
<p>Die Aufgabe des Programmierers ist nun, diese drei Komponenten mit Leben zu füllen. Dazu bietet UIMA schon sehr nützliche Basisklassen an, die einfach erweitert werden können. Der Gedanke dahinter ist: jede Klasse erfüllt genau eine Aufgabe. Sie muss nichts anderes als den Text, den es verarbeiten soll, wissen. Wir haben also praktisch ein Multiagentensystem vorliegen, das man am besten mit Fließbandarbeitern vergleichen kann. Eine Beispielanwendung könnte z.B. zur Füllung eines Lucene-Datenindexes so aussehen:</p>
<ul>
<li>CSV-Reader (Reader)</li>
<li>Tokenizer (Annotator)</li>
<li>Spelling-Correction (Annotator - benötigt die Informationen vom Tokenizer-Annotator)</li>
<li>Lucene-Consumer</li>
</ul>
<p>Natürlich ist man in der Lage, für die einzelnen Agenten wieder öffentliche Bibliotheken zu verwenden, man nutzt aber dabei bereits die - meiner Meinung nach - sehr ausgereifte und flexible Basisarchitektur. Die einzelnen Agenten können dabei sehr flexibel über eine XML-Datei konfiguriert und im Ablauf auch verändert werden. Damit sind die Methoden sehr gut wiederverwendbar. Gerade im Rahmen von Forschungsarbeiten sehr nützlich! </p>
<p>Wer also unstrukturierte Daten irgendwie verarbeiten will, sollte sich dieses Framework auf jeden Fall mal ansehen. Für mich war die Umstellung einer selbst entwickelten Architektur auf dieses System sehr lohnenswert.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/12/22/uima-eine-einfuhrung/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Blog-Analysen</title>
		<link>http://www.mathias-bank.de/2009/12/17/blog-analysen/</link>
		<comments>http://www.mathias-bank.de/2009/12/17/blog-analysen/#comments</comments>
		<pubDate>Thu, 17 Dec 2009 10:18:11 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/12/17/blog-analysen/</guid>
		<description><![CDATA[Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.
Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers [...]]]></description>
			<content:encoded><![CDATA[<p>Bei <a href="http://www.robertbasic.de/2009/12/deutscher-blog-corpus/">Robert</a> kam bezüglich dem <a href="http://www.mathias-bank.de/blogcorpus/">deutschen Blog-Corpus</a> die Frage auf, was denn analysiert werden soll.</p>
<p>Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers damit beschäftigt, ob man die Expertise eines Benutzers automatisch und objektiv bewerten kann. Dafür gibt es meiner Meinung nach eine relativ große Anzahl unterschiedlicher Indizien. Aber was Expertise und damit Qualität / Professionalität letztendlich ausmacht, das kommt auf die Fragestellung an. Jemand der nur mit Fachbegriffen um sich schmeißt, macht vielleicht einen professionellen Eindruck, aber liefert er damit eine hohe Qualität? Jemand, der auch mit &#8220;Anfänger-Fragen&#8221; umgehen kann bietet doch mindestens eine ebensolche Qualität. Einen objektiven Wert für Qualität gibt es demnach meiner Meinung nach nicht. Es kommt auf die Fragestellung an.</p>
<p>Mit Hilfe des Weblog-Corpus verspreche ich mir Antworten auf eine Reihe ganz anderer Fragen. Sie beruhen alle auf der Analyse des Schreibstils:</p>
<ul>
<li>Verwenden Frauen mehr Adjektive?</li>
<li>Verwenden junge Menschen auffallend viel Slang-Begriffe? Also Begriffe, die nicht im Lexikon auftauchen?</li>
<li>Schreiben Beamte wirklich &#8220;umständlicher&#8221; - z.B. im Nominalstil?</li>
</ul>
<p>Es gibt natürlich noch eine Reihe weiterer Fragen. Sie alle haben aber die Eigenschaft, dass man mit Hilfe von statistischen Verfahren versuchen will, Benutzereigenschaften zu bestimmen. Die große Frage lautet also: was sind die relevanten Eigenschaften. So hat z.B. <a href="http://u.cs.biu.ac.il/~koppel/">Prof. Koppel</a> herausgefunden, dass im englischen Raum die durchschnittliche Satzlänge auffallend stark mit dem Alter zusammenhängt. Auch bei Slang-Begriffen sei dies der Fall.</p>
<p>Für mich stellt sich eben die Frage: Funktionieren die Algorithmen im deutschen ebenso gut? Und was verrät man sonst noch über sich?</p>
<p>Um das bestimmen zu können braucht man also zur statistischen Relevanz einen relativ großen Corpus. Bisher haben sich knapp über 30 Blogs registriert. Das ist leider deutlich zu wenig. Ich würde mich also freuen, wenn ihr den Link weiter veröffentlichen könntet.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/12/17/blog-analysen/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Deutscher Blog-Corpus</title>
		<link>http://www.mathias-bank.de/2009/12/14/deutscher-blog-corpus/</link>
		<comments>http://www.mathias-bank.de/2009/12/14/deutscher-blog-corpus/#comments</comments>
		<pubDate>Mon, 14 Dec 2009 09:59:16 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[Doktorarbeit]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/12/14/deutscher-blog-corpus/</guid>
		<description><![CDATA[Im Rahmen meiner Doktorarbeit stoße ich ständig auf ein Problem: im Bereich &#8220;User Generated Content&#8221; gibt es es kaum Corpora, mit denen man den Erfolg / Misserfolg der Algorithmen unter Beweis stellen kann. Besonders im deutschen Raum sieht es da sehr schlecht aus. Findet man im englischsprachigen Raum noch Daten wie den Corpus von Prof. [...]]]></description>
			<content:encoded><![CDATA[<p>Im Rahmen meiner Doktorarbeit stoße ich ständig auf ein Problem: im Bereich &#8220;User Generated Content&#8221; gibt es es kaum Corpora, mit denen man den Erfolg / Misserfolg der Algorithmen unter Beweis stellen kann. Besonders im deutschen Raum sieht es da sehr schlecht aus. Findet man im englischsprachigen Raum noch Daten wie den Corpus von <a href="http://u.cs.biu.ac.il/~koppel/">Prof. Koppel</a> mit dem unter anderem gezeigt werden konnte, dass man mit dem Schreibstil auf Alter und Geschlecht schließen kann (z.B. <a href="http://www.cs.biu.ac.il/~koppel/papers/springsymp-blogs-07.10.05-final.pdf">Effects of Age and Gender on Blogging</a> oder <a href="http://131.193.153.231/www/issues/issue12_9/argamon/">Mining the Blogosphere: Age, gender and the varieties of self–expression</a>), ist hier leider aus wissenschaftlicher Sicht tote Hose. Eine Vergleichbarkeit der Algorithmen ist meist nicht möglich - oft funktionieren sie gefühlt auch in deutscher Sprache nicht annähernd so gut wie in englischer Sprache. Das muss objektiv evaluiert werden.</p>
<p>Höchste Zeit, dass die Lücke also geschlossen wird. Ich habe deshalb eine Seite online gestellt, mit deren Hilfe ein <a href="http://www.mathias-bank.de/blogcorpus/">deutscher Blog-Corpus</a> erstellt werden soll. Jeder Blogbetreiber kann hierzu seine Blog-Adresse, sein Alter, sein Geschlecht und nach Möglichkeit auch seine Berufsgruppe hinterlegen. Ein Blog-Crawler ladet dann die Beiträge herunter und verknüpft die Daten entsprechend. Der daraus entstehende deutsche Blog-Corpus wird dann an der selben Stelle der Allgemeinheit für Forschungszwecke zur Verfügung gestellt.</p>
<p>Also deutsche Bloggerszene: helft der deutschsprachigen Forschung!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/12/14/deutscher-blog-corpus/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Musik: Reggie Watts - I Just Want To</title>
		<link>http://www.mathias-bank.de/2009/08/07/musik-reggie-watts-i-just-want-to/</link>
		<comments>http://www.mathias-bank.de/2009/08/07/musik-reggie-watts-i-just-want-to/#comments</comments>
		<pubDate>Fri, 07 Aug 2009 21:08:57 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[music]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/08/07/musik-reggie-watts-i-just-want-to/</guid>
		<description><![CDATA[Was man alles mit Loopstations machen kann  




]]></description>
			<content:encoded><![CDATA[<p>Was man alles mit Loopstations machen kann <img src='http://www.mathias-bank.de/wp-includes/images/smilies/icon_biggrin.gif' alt=':D' class='wp-smiley' /> </p>
<p><object width="425" height="344">
<param name="movie" value="http://www.youtube.com/v/344OpaQCAQI&#038;hl=de&#038;fs=1&#038;"></param>
<param name="allowFullScreen" value="true"></param>
<param name="allowscriptaccess" value="always"></param><embed src="http://www.youtube.com/v/344OpaQCAQI&#038;hl=de&#038;fs=1&#038;" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="344"></embed></object></p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/08/07/musik-reggie-watts-i-just-want-to/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Musik: Pogo - Expialidocious</title>
		<link>http://www.mathias-bank.de/2009/08/07/musik-pogo-expialidocious/</link>
		<comments>http://www.mathias-bank.de/2009/08/07/musik-pogo-expialidocious/#comments</comments>
		<pubDate>Fri, 07 Aug 2009 19:19:06 +0000</pubDate>
		<dc:creator>Mathias Bank</dc:creator>
		
		<category><![CDATA[music]]></category>

		<guid isPermaLink="false">http://www.mathias-bank.de/2009/08/07/musik-pogo-expialidocious/</guid>
		<description><![CDATA[Was man alles durch kreativen Umgang mit bestehenden Werken machen kann ist ehrlich erstaunlich:




[via Piratenpartei]
]]></description>
			<content:encoded><![CDATA[<p>Was man alles durch kreativen Umgang mit bestehenden Werken machen kann ist ehrlich erstaunlich:</p>
<p><object width="560" height="340">
<param name="movie" value="http://www.youtube.com/v/3Za-V_lhwGg&#038;hl=de&#038;fs=1&#038;"></param>
<param name="allowFullScreen" value="true"></param>
<param name="allowscriptaccess" value="always"></param><embed src="http://www.youtube.com/v/3Za-V_lhwGg&#038;hl=de&#038;fs=1&#038;" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="560" height="340"></embed></object></p>
<p>[via <a href="http://piratenspot.de/">Piratenpartei</a>]</p>
]]></content:encoded>
			<wfw:commentRss>http://www.mathias-bank.de/2009/08/07/musik-pogo-expialidocious/feed/</wfw:commentRss>
		</item>
	</channel>
</rss>
