Archive for Mai, 2008

Mai 13 2008

Sarah McLachlan – Angel – das wohl genialste Lied

Veröffentlicht by . Filed under: music

Sarah McLachlan gehört meiner Meinung nach zu den herausragensten Musikern dieser Zeit. Ihr mit Abstand bestes Lied – meiner Meinung nach – ist das Lied “Angel”. Auf das Lied bin ich schon vor ein paar Jahren im Soundtrack “Stadt der Engel” gestoßen. Ich finde auch, dass auf der Soundtrack-Version die beste Version ist. Das Lied halte ich für sehr schwer, denn es braucht viel Ausdruck und enorm viel Gefühl. Kein stumpfes “Nach-Dem-Rhythmus-Spielen”. Aber hört selbst! Hier ein Live-Mitschnitt

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Mai 13 2008

Relations-Extraktion – Vorfilterung notwendig

Veröffentlicht by . Filed under: Doktorarbeit

Wie ich bereits anklingen ließ, besteht meine Doktorarbeit unter anderem darin, vollautomatisch Texte so zu analysieren, dass aus an sich unstrukturierten Texten strukturelle Daten ermittelt werden können. Eine Methode hierfür stellt die Informationsextraktion dar. So will ich z.B. aus einem Automobil-Forum die Kilometeranzahl herausbekommen, aus einem Kochforum die Zutatenliste, etc.

Das bedeutet, ich suche einen Algorithmus der n-stellige Relationen herausfinden kann. Das Snowball-Konzept bietet das bereits für 2-stellige Relationen. Dabei handelt es sich um ein Bootstrapping-Verfahren, das mit einer kleinen Ausgangsmenge neue Relationstupel erkennen kann. Diese neu erkannten Relationstupel werden nun bei der nächsten Iteration mit verwendet, wodurch mit jeder Iteration immer mehr Tupel erkannt werden.

Das Problem mit Bootstrapping-Verfahren besteht nun darin, dass ein einmal gemachter Fehler – also ein falsches Tupel – sich mit jeder Iteration fortsetzt und die Resultate damit mit der Laufzeit immer schlechter werden. Das könnte man nun natürlich abschwächen, indem man neue Tupel im Laufe der Zeit immer schlechter bewertet (Simulated Anealing). Das Snowball-System verwendet hierzu jedoch einen ganz anderen Ansatz: Named Entities.

Die Texte werden vorverarbeitet und es werden nur Begriffe mit bestimmten Named Entities (z.B. Organization, Location) als mögliche Tupel zugelassen. Das grenzt die möglichen Tupel deutlich ein. In meinem Fall stellt das jedoch ein Problem dar, da ich oft an Daten interessiert bin, die nicht mit Named Entities repräsentiert werden (z.B. Laufleistung, Alter, etc.). Man müsste immer einen Tagger extra trainieren, was wohl auf lange Sicht bescheuert ist.

Die alternative Idee war deshalb von mir, POS-Tags zu verwenden (Substantiv, Verb, …). Hierzu gibt es auch jede Menge Tagger (Stanford Tagger, TreeTagger, …). Diese Tagger müssten nur für die entsprechende Sprache angelernt werden, eine Anpassung an bestimmte Attribute wäre nicht notwendig. Eine Filterung – auch wenn sie weicher ist – wäre also möglich.

Ich frage mich jedoch, ob das wirklich notwendig ist. Als Mensch geh ich ja auch nicht hin und frage mich, was für eine Wortart der Begriff ist. Ich suche eher nach Mustern in Form von regulären Ausdrücken.

Hat jemand eine Idee oder Erfahrung, ob man diese Filterung vernachlässigen kann oder gibt es vielleicht eine gute Idee, wie man filtern sollte?

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
One response so far

Mai 12 2008

Versandkosten und MwSt.

Veröffentlicht by . Filed under: eCommerce

Ich bin mal wieder dabei, mein Shop um ein paar nützliche kleine Plugins zu erweitern. Dabei bin ich darauf gestoßen, dass auf Versandkosten ebenfalls eine Mehrwertsteuer abzuführen ist. Hierzu findet man über Google auch jede Menge Diskussionen. Interessant finde ich diesen Kommentar:

Da das Porto jedoch eine Nebenleistung ist, ist der Mehrwertsteuersatz unterschiedlich, getreu dem Grundsatz: “Die Nebenleistung teilt das Schicksal der Hauptleistung”. Das bedeuted, bei verminderter Besteuerung, wie z.B. bei Büchern, kommen auf das Porto 7% MwSt., bei normaler Besteuerung 16%.

Das halte ich jetzt mal für recht aufwendig, sowas sauber zu realisieren. Was ist denn bei gemischten MwSt-Sätzen?

Das ist mal wieder richtig typisch deutsch. Man muss zu einem Artikel die enthaltenen MwSt. ausweisen sowie die Versandkosten. Am besten dann wohl noch zu den Versandkosten die enthaltene MwSt. Und die hängt dann noch schön davon ab, was gerade im Warenkorb ist. *kopfschüttel*

Ich mach mich mal auf die Suche nach den entsprechenden Gesetzestexten.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Mai 09 2008

Aufregende Woche

Veröffentlicht by . Filed under: Uncategorized

Das war jetzt mal vielleicht ne Woche:

  • Ich hab das Ulmer Münster erklommen (über 700 Treppen aufwärts sind definitiv angenehmer als abwärts!)
  • Das Auto hat entgegen aller Voraussagen doch noch den Tüv bekommen :D
  • Meine bessere Hälfte heißt jetzt “Bank” mit Nachnamen (der Stärkere setzt sich durch…. ok, die Klügere gibt nach)

Wenn ich es heut noch schaffe, gibts vielleicht ein paar Bilder vom Großereignis gestern ;)

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Mai 07 2008

Videos auf den Nachrichtenseiten nerven!

Veröffentlicht by . Filed under: The World Wide Web

Langsam wird es mir echt zuviel. Auf Faz.net kommt es schon häufig vor. Heute ist es mir aber auch schon zweimal auf heute.de passiert: da liest man einen interessanten Nachrichten-Header und klickt erwartungsvoll auf die Nachricht, und was passiert: es kommt ein Video!!

Liebe Leute:

  1. Ihr solltet solche Nachrichten deutlich kennzeichnen
  2. Ihr solltet alternativ auch die Nachricht als Text anbieten.

Mich nervt diese “Medien”-Revolte sehr. Ich lese deutlich schneller als die Leute in Podcasts oder Videos reden. Dabei sollte es doch eigentlich einfacher für die Anbieter sein, Texte anzubieten. Braucht weniger Ressourcen, erzeugt weniger Traffic, liegt sowieso vor. Wenn ich Videos anschauen will, geh ich auf YouTube oder schau mir abends die Nachrichten im Fernsehen an. Im Internet brauch ich das nicht – zumindest nicht bei Nachrichten. Ich hab dadurch keinerlei Mehrwert. Es dauert nur länger.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Next Entries » | « Previous Entries

^