Archive for Juni, 2007

Jun 07 2007

Wie ticken Suchmaschinen? Sicht aus dem Bereich Text-Mining

Veröffentlicht by . Filed under: Foren-Welt

Derzeit schreibe ich an meiner Diplomarbeit im Bereich Text-Mining und hab mich deshalb seit längerem damit beschäftigt, wie Texte analysiert und wie relevante Stellen innerhalb einer Text-Kollektion ermittelt werden können. Da mein letzter Beitrag phpBB – schlecht fürs Ranking recht viel Aufmerksamkeit bekommen hat, möchte ich kurz grundlegende Techniken vorstellen, die erklären, wie man Blogs und Foren (oder Seiten allgemein) suchmaschinenfreundlicher gestalten kann. Ich stelle diese Analyse nicht als Fakt hin (niemand außer Google weiß, wie Google arbeitet) und freue mich schon jetzt auf eine Diskussion. Bei den vorgestellten Techniken handelt es sich nur um Grundprinzipien, dass eine Suchmaschine feiner arbeitet, dürfte klar sein.

Text-Repräsentation

Um Texte miteinander vergleichen zu können, ist es notwendig, sie in ein einheitliches Format zu bringen. Das bedeutet, dass wir eine Repräsentation benötigen, in die jeder Text passt. Hier hat sich in der Praxis das Vektorraum-Model von G. Salton (1975) durchgesetzt. Die Grundidee besteht darin, sowohl Dokumente als auch Anfragen als sehr hochdimensionalen Vektor aufzufassen, in dem jede Dimension für einen Term steht. Ein Term ist dabei z.B. ein Wort. Das bedeutet, dass die Größe des Vektors mit der Anzahl aller möglichen Worte übereinstimmt.

Man nimmt nun alle Terme eines Dokuments und steckt sie in diesen Vektor. Dabei wird die Anzahl der Terme berücksichtigt – wenn wir also in einem Text 5 mal das Wort “Google” haben, dann steht im Vektor an Stelle des Terms “Google” der Wert “5″. Es geht dabei aber die Information verloren, an welcher Stelle das Wort genau stand (Sack of words). Das scheint eigentlich ein kritischer Fehler zu sein. Es hat sich in der Praxis aber gezeigt, dass die Information zwar hilfreich sein kann, in den meisten Fällen jedoch irrelevant ist.

Warum hat sich das Vektor-Raum-Modell durchgesetzt?

Es ist sehr einfach, Berechnungen durchzuführen: Die Ähnlichkeit zwischen zwei Vektoren kann mit Hilfe des eingeschlossenen Winkels berechnet werden. Hierzu gibt es mehrere Techniken, die beliebteste ist jedoch schlicht, den Cosinus auszurechnen:

  • sind zwei Dokumentenvektoren identisch, erhalten wir 1 (maximaler Treffer)
  • sind sie komplett unterschiedlich, erhalten wir 0 (minimaler Treffer, Dokumente haben nichts gemeinsam und stehen damit rechtwinklig zueinander)

Wir berücksichtigen jetzt, dass Dokumente als auch Anfragen als Dokumentenvektoren aufgefasst werden und die Ähnlichkeitsbestimmung somit unsere Suchergebnisse liefert.

Das Cosinus-Maß ist einfach zu berechnen und leicht verständlich. Es geht jedoch schneller. Wenn alle Dokumentenvektoren normiert sind (also die Länge 1 haben), dann kann man anstelle des Cosinus einfach das Skalar-Produkt zweier Vektoren berechnen. Das ist ein extremer Geschwindigkeitsgewinn bei hohen Dimensionen und wird deshalb heute in jeder aktuellen Suchmaschine eingesetzt.

Was bedeutet das in der Praxis? Dazu muss man sich fragen: Wie wird ein Vektor normiert? Wir addieren einfach alle Vektor-Einträge zusammen (Betrag des Vektors) und dividieren jeden Vektor-Eintrag durch diese Summe. Das heißt: Je weniger Einträge mein Vektor hat – also je weniger Terme in meinem Text vorkommen – desto höher sind die Werte eines einzelnen Terms. Das heißt also:

Je mehr unnötige Begriffe auf der Seite vorkommen, desto weniger gewichtet sind relevante Begriffe und desto unwahrscheinlicher erhalten wichtige Begriffe eine starke Gewichtung.

Es gilt also: Regel 1: Man muss sich auf das Wesentliche konzentrieren!

Das Lexikon ist das Problem

Wir haben bis jetzt also festgehalten, dass unnötige Texte die Bewertung relevanter Text-Abschnitte abschwächt. Das ist jedoch nur die eine Seite. In der Praxis ist die Größe unserer Vektoren ein Problem. Aus diesem Grund gibt es mehrere Verfahren, die Größe eines Vektors zu beschränken. Die wichtigste Methode wird dabei als zipfsches Gesetz bezeichnet:

Zipfsches Gesetz

Nach George Kingsley Zipf folgt die natürliche Sprache in vielen Belangen dem “Prinzip der geringsten Anstrengung”. So sind die am häufigsten benutzten Wörter sogenannte Funktionswörter (“der”, “die”, “das”, …). Diese Funktionswörter sind für Suchanfragen natürlich völlig uninteressant, weil sie in fast jedem Text vorkommen. Aus diesem Grund zählt man alle Texte einer Kollektion (also eines Internetauftritts) zusammen. Sehr häufig aufkommende Wörter werden dabei ignoriert (Stopp-Wörter), sehr selten aufkommende Wörter ebenfalls (Rechtschreibfehler). Die relevanten Begriffe haben eine mittlere Häufigkeit. Damit können wir die Dimension des Vektors beschränken. In Kombination mit anderen Verfahren (Stemming, n-Gramme) erhalten wir “handhabbare” Vektor-Größen.

Was bedeutet das in der Praxis? Wörter, die auf allen Seiten mehrmals auftauchen, werden als Stopp-Wörter aufgefasst, wenn die Häufigkeit eine gewisse Schwelle erreicht. Große Seiten wie das Abakus-Forum können es sich also teilweise leisten, unwichtigen Text auf ihren Seiten zu führen, da dieser einfach nicht berücksichtigt wird. Das selbe Forum mit weniger Inhalt würde jedoch aufgrund Regel 1 vom unnötigen Text Schaden nehmen.

Also: Regel 2: Große Seiten können sich unwichtigen Text eher leisten als kleine.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
4 responses so far

Jun 05 2007

Meebo and job offerings

Veröffentlicht by . Filed under: The World Wide Web

Meebo is a fantastic instant messaging system for your browser. I love this tool because at work, I’m not able to use standard messaging programs.

Today, I haved looked at the source of meebo. And what have I found?

interested in joining meebo? we have full time and internship opportunities available including front-end software engineer (JavaScript/DHTML/Ajax/C/C++), back-end software engineer (C/C++/networking/databases), and visual designer. email secretjobs at meebo dot com with your resume and cover letter. thanks!

Really nice!

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
One response so far

Jun 03 2007

phpBB – schlecht fürs Ranking

Veröffentlicht by . Filed under: Foren-Welt

Der Seoblogger hat einen interessanten Beitrag darüber geschrieben, warum phpBB – zumindest aus Sicht der Suchmaschinen – keine optimale Forensoftware darstellt: phpBB ist schlecht fürs Ranking.

So gut die Forensoftware sein mag (inzwischen sind die meisten Bugs hoffentlich behoben, man hört auf jeden Fall nicht mehr soviel), im Bezug auf Suchmaschinen muss ich dem Beitrag zustimmen.

statische URLs

Größtes Problem sind dabei natürlich erstmal: dynamische URLs. Google ist zwar in der Lage, dynamische URLs zu parsen, die Anzahl der Parameter hängt aber nicht unwesentlich vom vorhandenen PageRank ab. Auch habe ich im Strohhalm festgestellt, dass zwar alle Seiten indiziert werden, statische URLs aber wesentlich besser gerankt werden. Hier muss phpBB also erstmal erweitert werden. Hier bietet vBulletin mit dem Plugin vbSEO einen wirklichen Mehrwert. Aber auch diese kostenpflichtige Forensoftware kommt von Haus aus nicht suchmaschinenfreundlich daher. Ein wirkliches Manko!

Konzentration aufs Wesentliche!

Ein wirkliches Problem der meisten Forensoftware – darunter eben auch phpBB – stellt aber die Darstellung von Diskussionen dar. Schaut man sich den Quellcode einer beliebigen Diskussionsseite an, so sieht man, dass die meisten Systeme sehr viel Text mitliefern, der eigentlich nicht zur Diskussion gehört und auf allen Seiten vorhanden ist. Damit wird der Wert einer einzelnen Seite stark verwässert. Suchmaschinen können mit entsprechender Anpassung zwar erkennen, was Diskussion ist und was das übliche “BlaBla” drum herum ist. Aber warum sollte Google für eine Seite genau herausfinden, was Diskussion und damit wichtiger Inhalt ist, was Struktur-Elemente sind und was Avatare und Signaturen? Dazu sind die meisten Communities einfach nicht wichtig genug. Es gilt hier eben auch der Grundsatz: weniger ist mehr! Das machen Blogs recht gut vor, da sie meist mit sehr wenig “BlaBla” daherkommen und der Content den wirklichen Mehrwert darstellt. Die gute Positionierung von Blogs kommt also nicht von ungefähr. Auch sieht man in manch Forensoftware, dass die Konzentration aufs Wesentliche sehr hilfreich sein kann (z.B. im Strohhalm und als Paradebeispiel das SelfHtml-Forum, welches wirklich immer extrem gut platziert ist).

Eine Seite – eine URL

Und schließlich der letzte Punkt, den viele falsch machen: Eine Seite sollte stets immer unter derselben URL zu finden sein. Hier schwächeln sehr viele Forensysteme. Wenn man sich also die Mühe gemacht hat, das Forum auf statische URLs zu trimmen, dann sollte man auch sehr großen Wert darauf legen, dass eine Seite immer unter derselben URL zu finden ist. Der Grund ist offensichtlich: wenn identischer Inhalt unter unterschiedlichen URLs zu finden ist: warum sollte dann die eine URL wichtiger sein als die andere? Vielmehr dürfte doch gelten: der Inhalt kommt mehrfach vor, dürfte also insgesamt weniger wichtig sein. Man weicht also den Wert einer Seite auf, indem man ihn unter mehreren URLs vorkommen lassen will.

Neure Forensoftware wie z.B. Vanilla berücksichtigen schon stärker, wie Suchmaschinen denken. Man sollte sich also Gedanken darüber machen, ob die Darstellung von Foren, wie sie weitläufig benutzt sind, wirklich sinnvoll ist. Man muss berücksichtigen, dass Foren von Suchmaschinen in nicht unwesentlicher Weise leben, denn schließlich kommen die meisten neuen Benutzer über die Suchmaschinen.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
11 responses so far

Jun 02 2007

Google und Link-Verkauf

Veröffentlicht by . Filed under: Uncategorized

Vor kurzem habe ich noch gefragt, ob Google seine Marktstellung missbraucht: nun scheint es sich zu bestätigen. Google scheint systematisch Seiten in deren Positionierung abzustrafen, welche Links verkaufen. Damit sind Werbepartner wie Text-Link-Ads oder Linklift unter Umständen gefährlich für Seiten, die auf eine entsprechende Google-Positionierung angewiesen sind.

Als Empfehlung zur Problemlösung findet man:

Alle Unterseiten, die absolut nichts inhaltliches bringen raus. Noindex follow wird der Freund schlechthin.

Das halte ich aber für total fehl am Platz. Nofollow macht aus meiner Sicht durchaus Sinn. Aber Seiten, die thematisch sinnvoll sind und auch als “gut” angemessen werden, sollte nicht abgewertet werden, nur weil Google sonst die eigene Seite abwertet. Damit schießt sich der Suchmaschinengigant ganz klar ins Bein und es entspricht auch nicht dem Sinn einer Verlinkung.

Den restlichen Punkten – wie man seine Seiten in Google positioniert – kann ich mit gutem Gewissen zustimmen. Standardkonformes Webdesign sollte inzwischen auch bei den großen Firmen angekommen sein.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
2 responses so far

Jun 02 2007

free music: TF Gospel Singers – One More Valley

Veröffentlicht by . Filed under: music

There is also good free gospel music: for example TF Gospel Singers – One More Valley:

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
No responses yet

Next Entries »

^