Archive for the 'Foren-Welt' Category

Mrz 29 2008

Rechnung wegen unerlaubter Werbung?

veröffentlicht von Mathias Bank. Abgelegt unter: Foren-Welt

Wenn jemand in einem Forum einen Link auf das eigene Angebot setzt und aussagt:

Ich weiß nicht ober das Thema noch aktuell ist, möchte denoch eine Empfehlung abgeben. Wir nutzen seit ca. 1 Jahr xxx. Die Funktionen entsprechen dem, soweit ich dies überblicken kann, was im ersten Beitrag gefordert wurde.

Sollte man dann eine Rechnung wegen unerlaubter Werbung schreiben, wenn der Poster der Firmeninhaber der entsprechenden Software ist? Denn schließlich ist in den Forenregeln eindeutig die Rede von “Werbung ist nicht gestattet”.

Das ist doch unlauterer Wettbewerb. Dass es sich um die Unwahrheit handelt, kann man sich ja an einer Hand abzählen (”wir nutzen seit ca. 1 Jahr…”). Muss mich mal mit den anderen Admins zusammenschalten.

[Update]
Wir haben uns nun entschlossen, keine Rechnung zu schreiben und haben den Beitrag einfach gelöscht.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 2 Reaktionen

Jan 10 2008

Webshops und Community-Bildung

veröffentlicht von Mathias Bank. Abgelegt unter: Foren-Welt

In den letzten Wochen konnte ich viele Studien lesen, die immer deutlicher machen, dass eCommerce ein Erfolgsfaktor im Internet wird. Es stellt sich also die Frage wie man die Kunden direkt mit in den Shop einbinden könnte. Dabei fallen mir sofort folgende Punkte ein:

  1. Kunden bewerten Artikel
  2. Kunden können eigene Artikel verkaufen

Beide Möglichkeiten bietet Amazon. Ist deshalb von einer Community die Rede? Eigentlich nicht. Vielmehr kann man wohl bei diesen Maßnahmen von Web 2.0-Techniken reden, die eben den Kunden direkt miteinbeziehen. Eine Community ist aber mehr. Das Ziel muss es sein, eine aktive Gemeinschaft zu entwickeln, die sich gegenseitig kennt, sich gegenseitig anspornt und auf diese Weise das eCommerce-System sogar noch erweitert.

Wie also könnte man es also schaffen, dass eine Community rund um ein eCommerce-Angebot entsteht? Hierzu möchte ich ein kleines Beispiel nennen, das es inzwischen leider nicht mehr gibt. Den meisten ist das Ikea-Einrichtungshaus ein Begriff. Vom Angebot kann man halten, was man will. Interessant war jedoch eine Entwicklung, dass Ikea-Kunden Ideen sammelten, wie man die Produkte umgestalten kann. Im Blog “Ikea Hacker” veröffentlichten sie diese Ideen und entstand auf diese Weise eine sehr aktive Community. Leider hat Ikea die Zeichen der Zeit verkannt und das Blog ist heute nicht mehr aktiv.

Das Beispiel zeigt, dass es möglich ist, eine Community innerhalb eines eCommerce-Systems zu etablieren. Hierbei können Benutzer

  • Ratschläge austauschen
  • Produktverbesserungen vorschlagen
  • anderweitige Produktverwendungen vorstellen

Auf diese Weise entsteht nicht nur eine aktive Teilname der Kunden, sondern es entsteht eine regelrechte Identifizierung mit dem eCommerce-System.

Es stellen sich jedoch eine Reihe von Fragen:

  1. Welche Systeme lassen im Rahmen eines eCommerce-Systems (z.B. einem Shop) am ehesten eine aktive Community entstehen?
  2. Sollten diese Communities vielleicht gar nicht von der Firma hinter dem eCommerce-System gepflegt werden? Laufen die Communities besser, wenn sie von “externen” administriert werden?

Wie seht ihr das?

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher keine Reaktion

Jun 23 2007

Deutsche Nationalbibliothek antwortet

veröffentlicht von Mathias Bank. Abgelegt unter: Foren-Welt

Die Deutsche Nationalbibliothek hat auf meine offene Mail bezüglich der Archivierungspflicht geantwortet. Inzwischen ist das Thema ja auch bei bekannteren Blogs angekommen. Und wie zu erwarten war, trifft die Pflicht aufgrund des hohen Aufwands und den damit verbundenen Kosten nicht gerade auf Gegenliebe.

Hier nun die Antwort:

Sehr geehrter Herr Bank,

vielen Dank fuer Ihr Interesse an der Ablieferung von Netzpublikationen an die Deutsche Nationalbibliothek. Den folgenden Text koennen Sie gerne in Ihrem Weblog veroeffentlichen.

Die Verfahren zur automatischen Sammlung (”Harvesting”) von Netzpublikationen befinden sich im Entwicklungsstadium und muessen fuer den Einsatz im Rahmen des erweiterten Sammelauftrages zur Anwendungsreife gebracht werden.

Momentan erproben wir Harvesting-Methoden fuer Objektgruppen wie etwa Websites aller Bundesbehoerden, oder thematische Sammlungen zu besonderen nationalen Ereignissen wie Bundestagswahlen. Um in diesem Bereich Erfahrungen bezueglich der technischen und organisatorischen Realisierung zu sammeln, greifen wir momentan bei diesen “Harvesting-Projekten” auf die Hilfe externer Kooperationspartner zurueck.

Die erste Entwicklungsstufe ist bereits inhaltlich konzipiert und befindet sich in der technischen Umsetzung. Nach erfolgter Realisierung werden Sie aktuell ueber http://info-deposit.d-nb.de/ informiert.

Fuer weitere Auskuenfte stehen wir Ihnen gerne zur Verfuegung.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher eine Reaktion

Jun 07 2007

Wie ticken Suchmaschinen? Sicht aus dem Bereich Text-Mining

veröffentlicht von Mathias Bank. Abgelegt unter: Foren-Welt

Derzeit schreibe ich an meiner Diplomarbeit im Bereich Text-Mining und hab mich deshalb seit längerem damit beschäftigt, wie Texte analysiert und wie relevante Stellen innerhalb einer Text-Kollektion ermittelt werden können. Da mein letzter Beitrag phpBB - schlecht fürs Ranking recht viel Aufmerksamkeit bekommen hat, möchte ich kurz grundlegende Techniken vorstellen, die erklären, wie man Blogs und Foren (oder Seiten allgemein) suchmaschinenfreundlicher gestalten kann. Ich stelle diese Analyse nicht als Fakt hin (niemand außer Google weiß, wie Google arbeitet) und freue mich schon jetzt auf eine Diskussion. Bei den vorgestellten Techniken handelt es sich nur um Grundprinzipien, dass eine Suchmaschine feiner arbeitet, dürfte klar sein.

Text-Repräsentation

Um Texte miteinander vergleichen zu können, ist es notwendig, sie in ein einheitliches Format zu bringen. Das bedeutet, dass wir eine Repräsentation benötigen, in die jeder Text passt. Hier hat sich in der Praxis das Vektorraum-Model von G. Salton (1975) durchgesetzt. Die Grundidee besteht darin, sowohl Dokumente als auch Anfragen als sehr hochdimensionalen Vektor aufzufassen, in dem jede Dimension für einen Term steht. Ein Term ist dabei z.B. ein Wort. Das bedeutet, dass die Größe des Vektors mit der Anzahl aller möglichen Worte übereinstimmt.

Man nimmt nun alle Terme eines Dokuments und steckt sie in diesen Vektor. Dabei wird die Anzahl der Terme berücksichtigt - wenn wir also in einem Text 5 mal das Wort “Google” haben, dann steht im Vektor an Stelle des Terms “Google” der Wert “5″. Es geht dabei aber die Information verloren, an welcher Stelle das Wort genau stand (Sack of words). Das scheint eigentlich ein kritischer Fehler zu sein. Es hat sich in der Praxis aber gezeigt, dass die Information zwar hilfreich sein kann, in den meisten Fällen jedoch irrelevant ist.

Warum hat sich das Vektor-Raum-Modell durchgesetzt?

Es ist sehr einfach, Berechnungen durchzuführen: Die Ähnlichkeit zwischen zwei Vektoren kann mit Hilfe des eingeschlossenen Winkels berechnet werden. Hierzu gibt es mehrere Techniken, die beliebteste ist jedoch schlicht, den Cosinus auszurechnen:

  • sind zwei Dokumentenvektoren identisch, erhalten wir 1 (maximaler Treffer)
  • sind sie komplett unterschiedlich, erhalten wir 0 (minimaler Treffer, Dokumente haben nichts gemeinsam und stehen damit rechtwinklig zueinander)

Wir berücksichtigen jetzt, dass Dokumente als auch Anfragen als Dokumentenvektoren aufgefasst werden und die Ähnlichkeitsbestimmung somit unsere Suchergebnisse liefert.

Das Cosinus-Maß ist einfach zu berechnen und leicht verständlich. Es geht jedoch schneller. Wenn alle Dokumentenvektoren normiert sind (also die Länge 1 haben), dann kann man anstelle des Cosinus einfach das Skalar-Produkt zweier Vektoren berechnen. Das ist ein extremer Geschwindigkeitsgewinn bei hohen Dimensionen und wird deshalb heute in jeder aktuellen Suchmaschine eingesetzt.

Was bedeutet das in der Praxis? Dazu muss man sich fragen: Wie wird ein Vektor normiert? Wir addieren einfach alle Vektor-Einträge zusammen (Betrag des Vektors) und dividieren jeden Vektor-Eintrag durch diese Summe. Das heißt: Je weniger Einträge mein Vektor hat - also je weniger Terme in meinem Text vorkommen - desto höher sind die Werte eines einzelnen Terms. Das heißt also:

Je mehr unnötige Begriffe auf der Seite vorkommen, desto weniger gewichtet sind relevante Begriffe und desto unwahrscheinlicher erhalten wichtige Begriffe eine starke Gewichtung.

Es gilt also: Regel 1: Man muss sich auf das Wesentliche konzentrieren!

Das Lexikon ist das Problem

Wir haben bis jetzt also festgehalten, dass unnötige Texte die Bewertung relevanter Text-Abschnitte abschwächt. Das ist jedoch nur die eine Seite. In der Praxis ist die Größe unserer Vektoren ein Problem. Aus diesem Grund gibt es mehrere Verfahren, die Größe eines Vektors zu beschränken. Die wichtigste Methode wird dabei als zipfsches Gesetz bezeichnet:

Zipfsches Gesetz

Nach George Kingsley Zipf folgt die natürliche Sprache in vielen Belangen dem “Prinzip der geringsten Anstrengung”. So sind die am häufigsten benutzten Wörter sogenannte Funktionswörter (”der”, “die”, “das”, …). Diese Funktionswörter sind für Suchanfragen natürlich völlig uninteressant, weil sie in fast jedem Text vorkommen. Aus diesem Grund zählt man alle Texte einer Kollektion (also eines Internetauftritts) zusammen. Sehr häufig aufkommende Wörter werden dabei ignoriert (Stopp-Wörter), sehr selten aufkommende Wörter ebenfalls (Rechtschreibfehler). Die relevanten Begriffe haben eine mittlere Häufigkeit. Damit können wir die Dimension des Vektors beschränken. In Kombination mit anderen Verfahren (Stemming, n-Gramme) erhalten wir “handhabbare” Vektor-Größen.

Was bedeutet das in der Praxis? Wörter, die auf allen Seiten mehrmals auftauchen, werden als Stopp-Wörter aufgefasst, wenn die Häufigkeit eine gewisse Schwelle erreicht. Große Seiten wie das Abakus-Forum können es sich also teilweise leisten, unwichtigen Text auf ihren Seiten zu führen, da dieser einfach nicht berücksichtigt wird. Das selbe Forum mit weniger Inhalt würde jedoch aufgrund Regel 1 vom unnötigen Text Schaden nehmen.

Also: Regel 2: Große Seiten können sich unwichtigen Text eher leisten als kleine.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 4 Reaktionen

Jun 03 2007

phpBB - schlecht fürs Ranking

veröffentlicht von Mathias Bank. Abgelegt unter: Foren-Welt

Der Seoblogger hat einen interessanten Beitrag darüber geschrieben, warum phpBB - zumindest aus Sicht der Suchmaschinen - keine optimale Forensoftware darstellt: phpBB ist schlecht fürs Ranking.

So gut die Forensoftware sein mag (inzwischen sind die meisten Bugs hoffentlich behoben, man hört auf jeden Fall nicht mehr soviel), im Bezug auf Suchmaschinen muss ich dem Beitrag zustimmen.

statische URLs

Größtes Problem sind dabei natürlich erstmal: dynamische URLs. Google ist zwar in der Lage, dynamische URLs zu parsen, die Anzahl der Parameter hängt aber nicht unwesentlich vom vorhandenen PageRank ab. Auch habe ich im Strohhalm festgestellt, dass zwar alle Seiten indiziert werden, statische URLs aber wesentlich besser gerankt werden. Hier muss phpBB also erstmal erweitert werden. Hier bietet vBulletin mit dem Plugin vbSEO einen wirklichen Mehrwert. Aber auch diese kostenpflichtige Forensoftware kommt von Haus aus nicht suchmaschinenfreundlich daher. Ein wirkliches Manko!

Konzentration aufs Wesentliche!

Ein wirkliches Problem der meisten Forensoftware - darunter eben auch phpBB - stellt aber die Darstellung von Diskussionen dar. Schaut man sich den Quellcode einer beliebigen Diskussionsseite an, so sieht man, dass die meisten Systeme sehr viel Text mitliefern, der eigentlich nicht zur Diskussion gehört und auf allen Seiten vorhanden ist. Damit wird der Wert einer einzelnen Seite stark verwässert. Suchmaschinen können mit entsprechender Anpassung zwar erkennen, was Diskussion ist und was das übliche “BlaBla” drum herum ist. Aber warum sollte Google für eine Seite genau herausfinden, was Diskussion und damit wichtiger Inhalt ist, was Struktur-Elemente sind und was Avatare und Signaturen? Dazu sind die meisten Communities einfach nicht wichtig genug. Es gilt hier eben auch der Grundsatz: weniger ist mehr! Das machen Blogs recht gut vor, da sie meist mit sehr wenig “BlaBla” daherkommen und der Content den wirklichen Mehrwert darstellt. Die gute Positionierung von Blogs kommt also nicht von ungefähr. Auch sieht man in manch Forensoftware, dass die Konzentration aufs Wesentliche sehr hilfreich sein kann (z.B. im Strohhalm und als Paradebeispiel das SelfHtml-Forum, welches wirklich immer extrem gut platziert ist).

Eine Seite - eine URL

Und schließlich der letzte Punkt, den viele falsch machen: Eine Seite sollte stets immer unter derselben URL zu finden sein. Hier schwächeln sehr viele Forensysteme. Wenn man sich also die Mühe gemacht hat, das Forum auf statische URLs zu trimmen, dann sollte man auch sehr großen Wert darauf legen, dass eine Seite immer unter derselben URL zu finden ist. Der Grund ist offensichtlich: wenn identischer Inhalt unter unterschiedlichen URLs zu finden ist: warum sollte dann die eine URL wichtiger sein als die andere? Vielmehr dürfte doch gelten: der Inhalt kommt mehrfach vor, dürfte also insgesamt weniger wichtig sein. Man weicht also den Wert einer Seite auf, indem man ihn unter mehreren URLs vorkommen lassen will.

Neure Forensoftware wie z.B. Vanilla berücksichtigen schon stärker, wie Suchmaschinen denken. Man sollte sich also Gedanken darüber machen, ob die Darstellung von Foren, wie sie weitläufig benutzt sind, wirklich sinnvoll ist. Man muss berücksichtigen, dass Foren von Suchmaschinen in nicht unwesentlicher Weise leben, denn schließlich kommen die meisten neuen Benutzer über die Suchmaschinen.

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Bisher 10 Reaktionen

« ältere Beiträge

^