<?xml version="1.0" encoding="UTF-8"?><!-- generator="wordpress/2.3.3" -->
<rss version="0.92">
<channel>
	<title>Mathias Bank</title>
	<link>http://www.mathias-bank.de</link>
	<description>what's moving me</description>
	<lastBuildDate>Thu, 14 Jan 2010 08:48:28 +0000</lastBuildDate>
	<docs>http://backend.userland.com/rss092</docs>
	<language>en</language>
	
	<item>
		<title>Unstructured Information Architectures</title>
		<description><![CDATA[Arbeite gerade an einem Paper, in dem ich eine Übersicht über aktuell vorhandene OpenSource-Architekturen zur Behandlung von unstrukturierten Daten geben will. Folgende fallen mir da ein:

UIMA: der einzige OASIS Standard
Heart of Gold: für mich bisher interessant aus wissenschaftlicher Sicht, aber aus Anwendungssicht mach ich mir durch den exzessiven XML / XSLT-Gebrauch große Performanz-Sorgen. Für den [...]]]></description>
		<link>http://www.mathias-bank.de/2010/01/14/unstructured-information-architectures/</link>
			</item>
	<item>
		<title>Hadoop mit UIMA</title>
		<description><![CDATA[Ich spiele in den letzten Wochen immer wieder den Gedanken durch, ob ich nach dem sehr erfolgreichen Einsatz von UIMA mal ausprobieren sollte, ob man das ganze noch mit Hadoop kombinieren sollte. Ich verspreche mir dadurch die Möglichkeit, Performanz-Engpässe relativ einfach durch Hardware-Skalierung lösen zu können (à la Google). In den Mailinglisten hab ich jetzt [...]]]></description>
		<link>http://www.mathias-bank.de/2010/01/11/hadoop-mit-uima/</link>
			</item>
	<item>
		<title>Latex: Abstand Bildunterschrift</title>
		<description><![CDATA[Die letzten Wochen hatte ich zwar Urlaub, aber trotzdem die ganze Zeit geackert  Hab ein Paper für ein Management-Journal geschrieben. Tja und wie das mal so ist, war das Format beliebig. Also Latex mit &#8220;article&#8221; Klasse rangezogen.
Jetzt hat mich an der Klasse aber extrem der Abstand von Bild und Caption gestört. Das gleiche gilt [...]]]></description>
		<link>http://www.mathias-bank.de/2010/01/11/latex-abstand-bildunterschrift/</link>
			</item>
	<item>
		<title>Apache: kein mod_rewrite bei existierender Datei</title>
		<description><![CDATA[Ich bin mir sicher, eines der großen On-Page-SEO-Themen im nächsten Jahr wird sein, wie man die Auslieferung einer Seite beschleunigen kann. Es sollte geradezu offensichtlich sein, dass man am meisten in PHP-Programmen sparen kann, wenn man PHP erst gar nicht aufruft. Deshalb ist eine mögliche Idee, die generierten Seiten mittels PHP rausschreiben zu lassen und [...]]]></description>
		<link>http://www.mathias-bank.de/2009/12/23/apache-kein-mod_rewrite-bei-existierender-datei/</link>
			</item>
	<item>
		<title>Deutscher Blogcorpus - Zwischenstand</title>
		<description><![CDATA[Nachdem nun ein paar Blogger bereits auf das deutsche Blogcorpus verwiesen haben, möchte ich hier mal den aktuellen Zwischenstand veröffentlichen.
Aktuell haben sich 64 Blogs bereits beteiligt. Der älteste Blogger ist dabei 65, der jüngste 17. Die Altersverteilung sieht wie folgt aus:

Wie man schön erkennen kann, haben wir für die Jahrgänge 1970 - 1985 schon eine [...]]]></description>
		<link>http://www.mathias-bank.de/2009/12/22/deutscher-blogcorpus-zwischenstand/</link>
			</item>
	<item>
		<title>UIMA - eine Einführung</title>
		<description><![CDATA[Im Rahmen meiner Doktorarbeit habe ich mir inzwischen eine Reihe unterschiedlichster Systeme zur Verarbeitung von Texten (NLP Tools) angeschaut. Hier gibt es inzwischen auch eine ganze Reihe freier Implementierungen, am bekanntesten sind sicherlich folgende:

Natural Language Toolkit: eine Sammlung von python-Modulen
Weka: An sich eher ein Data-Mining-System, das aber auch &#8220;einfache&#8221; Module für Text-Verarbeitung anbietet. Scheitert aber [...]]]></description>
		<link>http://www.mathias-bank.de/2009/12/22/uima-eine-einfuhrung/</link>
			</item>
	<item>
		<title>Blog-Analysen</title>
		<description><![CDATA[Bei Robert kam bezüglich dem deutschen Blog-Corpus die Frage auf, was denn analysiert werden soll.
Eine Analyse, die ich für sehr unwahrscheinlich halte (aber nicht ausschließen kann, soll der Wissenschaft ja frei zur Verfügung stehen), besteht darin, die Qualität eines Blogs zu bewerten. Nur was ist Qualität? Ich habe mich erst kürzlich im Rahmen eines Papers [...]]]></description>
		<link>http://www.mathias-bank.de/2009/12/17/blog-analysen/</link>
			</item>
	<item>
		<title>Deutscher Blog-Corpus</title>
		<description><![CDATA[Im Rahmen meiner Doktorarbeit stoße ich ständig auf ein Problem: im Bereich &#8220;User Generated Content&#8221; gibt es es kaum Corpora, mit denen man den Erfolg / Misserfolg der Algorithmen unter Beweis stellen kann. Besonders im deutschen Raum sieht es da sehr schlecht aus. Findet man im englischsprachigen Raum noch Daten wie den Corpus von Prof. [...]]]></description>
		<link>http://www.mathias-bank.de/2009/12/14/deutscher-blog-corpus/</link>
			</item>
	<item>
		<title>Musik: Reggie Watts - I Just Want To</title>
		<description><![CDATA[Was man alles mit Loopstations machen kann  




]]></description>
		<link>http://www.mathias-bank.de/2009/08/07/musik-reggie-watts-i-just-want-to/</link>
			</item>
	<item>
		<title>Musik: Pogo - Expialidocious</title>
		<description><![CDATA[Was man alles durch kreativen Umgang mit bestehenden Werken machen kann ist ehrlich erstaunlich:




[via Piratenpartei]
]]></description>
		<link>http://www.mathias-bank.de/2009/08/07/musik-pogo-expialidocious/</link>
			</item>
</channel>
</rss>
