Kampf den Plagiaten! (Teil 2)

Im ersten Teil dieser Artikelserie wurde gezeigt, was Plagiate sind, wie sie entstehen und wieso sie so problematisch sind. Weiter geht es hier mit der Frage:

Wie wird versucht, Plagiate „unkenntlich“ zu machen?

Um die Vervielfältigung zu vertuschen, ließ man sich zahlreiche Tricks einfallen. Wörter und/oder Sätze werden vertauscht, einzelne Wörter durch Synonyme ersetzt und Absätze neu angeordnet… Eine oft genutzte Möglichkeit, bestehende Texte in inhaltlich identische, aber formal unterschiedliche Texte umzuwandeln, ist das sogenannte Text-Spinning. Spinning-Programme wie beispielsweise der “Article Spinning Wizard” helfen Webmastern dabei, eigene Texte für mehrere URLs umzuschreiben und so ihre Inhalte in verschiedenen Formen anbieten zu können, beispielsweise auf Social Networks. So nützlich solche Programme für ehrliche Webmaster auch sein mögen, so viel Potenzial bieten sie auch für die Abwandlung unrechtmäßig kopierter Texte…

Mit Hilfe von Spinning-Programmen können Texte je nach Einstellung auf gewünschte Weise gespinnt werden. Die “Spintax” (von “Spin Syntax”) eines Textes beinhaltet dabei Textfragmente (einzelne Wörter, kurze Textabschnitte, Sätze…) und entsprechende mögliche Ersatzphrasen. Das Programm erstellt “neue” Texte, indem sämtliche zu ersetzende Textstellen mit zufällig ausgewählten Objekten aus dem Pool der jeweils möglichen Ersatzphrasen ausgetauscht werden.

Nicht immer sind die daraus resultierenden Texte ansprechend, aber je nach dem, wie viel im Text gespinnt wurde, können Leser aus Fleisch und Blut auf diese Weise getäuscht werden. Anders sieht es aber bei maschinellen “Lesern” aus: Offenbar wird unterschätzt, dass es mithilfe von Computerprogrammen extrem effektive Mittel und Wege gibt, genau solche Taktiken aufzuspüren…

Wie werden Plagiate ermittelt?

Im Internet gibt es verschiedene kostenfreie und kostenpflichtige Dienstleister, die sich dem Aufspüren von duplizierten Inhalten verschrieben haben. Menschen, die geistiges Eigentum auf welche Weise auch immer erstellen, haben ein Interesse daran, dass dieses nicht von anderen ungefragt kopiert und weiter verbreitet wird. In diesem Fall bietet es sich an, sich an einen der vielen Dienstleister zu wenden und die anhaltende Einzigartigkeit seiner Produkte zu überprüfen.

Als Beispiele wären hier CopyScape, der Plagiats-Alarm von content.de oder der deutsche Dienstleister Plagaware zu nennen. Für die Suche nach dupliziertem Bildmaterial im Web kann der Service von TinEye genutzt werden. Jeweils verschiedene Verfahren werden angewendet, um nach verdecktem oder getarntem Duplicate Content zu suchen.

Eines dieser Verfahren ist zum Beispiel das sogenannte „Shingling“. Suchmaschinen untersuchen beim Shingling zwei Texte auf ihre Ähnlichkeit, indem einzelne Textabschnitte in kleinere Bestandteile aufgespalten werden. Der Satz “Content kopieren lohnt sich nicht.” würde beispielsweise (je nach Einstellung) in die Shingles “Content kopieren lohnt”, “kopieren lohnt sich” und “lohnt sich nicht” zerlegt.

Die gewonnenen Textschnipsel werden dann in einen numerischen Wert umgewandelt. Das gleiche wird mit einem anderen, zu vergleichenden Satz durchgeführt. Die daraus resultierenden Werte werden daraufhin miteinander verglichen. Das Verhältnis gleicher Shingles zur Gesamtzahl der Shingles zeigt an, wie ähnlich sich die beiden Textabschnitte sind. Wären beispielsweise 7 von 10 verglichenen Shingles in beiden Texten gleich, würde durch das Shingling eine Ähnlichkeitsrate von 70% errechnet werden.

Wir bei content.de nutzen verschiedene Möglichkeiten, um die Einzigartigkeit der Texte zu prüfen, die wir an unsere Clients vermitteln. Ein grundsätzlich unverzichtbarer Partner an unserer Seite ist CopyScape. CopyScape prüft über Schnittstellen zu Yahoo! und Google, ob Textfragmente (Shingles) des eingereichten Textes bereits auf anderen Webseiten zu finden sind. Durch CopyScape werden nicht nur die Texte geprüft, die unsere Autoren einreichen. Schon bei der Abgabe eines Mustertextes bei der Erstanmeldung gehen bei uns die sprichwörtlichen roten Lampen an, wenn ein Text vorgelegt wird, der in gleicher oder sehr ähnlicher Form schon an anderer Stelle im Internet zu finden ist.

Dabei werden die Texte nicht nur mit möglichen Duplikaten im Internet verglichen, sondern auch durch einen internen Duplikats-Check. So werden die zu überprüfenden Texte mit allen Texten abgeglichen, die im content.de-System im Umlauf waren oder sind. Auf diese Weise kann die Einzigartigkeit eines Textes schon vor der Abgabe an den Kunden garantiert werden.

Als content.de-Kunde gibt es die Möglichkeit, bei der Verwendung von CopyScape bestimmte Anpassungen vorzunehmen. Behandelt ein bestellter Text zum Beispiel ein Thema, bei dem zu erwarten ist, dass Daten wie beispielsweise Terminlisten oder der Lebenslauf einer berühmten Person im Text vorkommen werden, kann eine Toleranzgrenze gesetzt oder CopyScape gleich ganz ausgestellt werden. Im Bezug auf diese Möglichkeiten stehen die persönlichen Ansprechpartner bei content.de ihren Kunden selbstverständlich jederzeit beratend zur Seite.

Kann ein Plagiat “aus Versehen” entstehen?

Ein tückisches und wenig bekanntes Problem im Zusammenhang mit Duplicate Content ist der Fall, wenn “unvorsichtige” Webseitenbesitzer aus ihren eigenen Inhalten Duplicate Content machen. Zwar handelt es sich dabei im strengen Sinne nicht um ein Plagiat, dennoch ist es aus SEO-Sicht sehr ärgerlich. Denn auch wenn ein bestimmter Text nur von einem einzigen Webmaster verwendet wird, kann es vorkommen, dass ein und derselbe Text unter mehreren URLs der Webseite erreichbar ist. Dies kann beispielsweise der Fall sein, wenn neben einer normalen Version der Seite noch eine Mobile-Version erstellt wird, auf der derselbe Text verwendet wird.

Gleiches gilt, wenn eine Internetseite einmal mit und einmal ohne das “www.” in der URL erreicht werden kann – schon dies kann als Duplicate Content gelten. Auch kann es bei einigen Content Management Systemen im Internet passieren, dass der Textinhalt auf zahlreichen dynamisch generierten Websites verfügbar gemacht wird. In all diesen Fällen muss gute Suchmaschinenoptimierung vorgenommen werden, indem diese Fehler erkannt und unschädlich gemacht werden. Letzteres kann zum Beispiel gelingen, indem man den Crawlern von Google und Co. durch Scripte signalisiert, dass die betreffenden Seiten vom Crawlen ausgeschlossen werden sollen. Niemand will schließlich sich selbst plagiieren!

Bei vielen Blogs, bei denen veröffentlichte Texte auch in Archiven, Kategorieübersichten etc. erreichbar sind, gibt es hierfür entsprechende Einstellungen, die eine Ausweisung als Duplicate Content verhindern. Eine weitere Lösung für dieses Problem ist es, einen kanonischen Link zu nutzen. Dieses canonical link element lässt sich im Head eines HTML-Dokuments setzen und verweist so bei mehrfacher Nutzung eines bestimmten Inhalts auf nur eine bestimmte Quelle. Wird also ein Text unter mehreren URLs bereitgestellt, kann ein kanonischer Link dafür sorgen, dass nur das Original des betreffenden Textes ausgewiesen wird.

Wie kann man Plagiate seines eigenen Contents auffinden?

Die Dienstleister zum Plagiats-Check im Internet reichen von Services für Privatpersonen bis hin zu Unternehmen, die große Datenmengen für gewerbliche Nutzer überprüfen. Genau so gibt es Verfahren, in denen eine einmalige, kurzfristige Überprüfung durchgeführt wird, während bei anderen eine dauerhafte Überprüfung gewährleistet wird. Fest steht: Einzelne Textpassagen ins Google-Suchfenster einzugeben ist zwar effektiv, jedoch sehr zeitaufwändig. Einfacher ist es da stets, den Service der hier angesprochenen Anbieter in Anspruch zu nehmen.

Bei content.de werden fertiggestellte Texte, bevor sie dem Kunden vorgelegt werden, zweimalig geprüft. Zunächst wird innerhalb unseres Systems abgeglichen, ob der eingereichte Text schon einmal von uns vermittelt wurde – so dass kein Autor einen Text abgeben kann, den er schon über uns verkauft hat. Danach wird überprüft, ob der Text oder Textfragmente im Internet schon vorhanden sind oder nicht.

Für alle Texte ab Qualitätsstufe 4*+ oder Direct Orders mit einem Wortpreis von mindestens 3 Cent gibt es zusätzlich noch den hier im content.de-Blog beschriebenen Plagiats-Alarm. Texte mit diesen Eigenschaften werden durch diesen kostenfreien Zusatz-Service nach dem Kauf noch zwei Mal im ersten Jahr auf ihre Einzigartigkeit überprüft – auf Wunsch und gegen ein geringes Entgelt kann dieser Service verlängert werden. Kommt es durch den Plagiats-Alarm zum Fund eines duplizierten Textes, wird der Urheberrechtsbesitzer unmittelbar darüber benachrichtigt.

Wie kann ich den Plagiaten den Kampf ansagen?

Nimmt man sich als Webseitenbetreiber vor, die Einzigartigkeit des eigenen Contents zu schützen und Plagiaten den Kampf anzusagen, muss man vor allem eines: Am Ball bleiben.

Die ersten Schritte der Bekämpfung unerlaubter Duplikate beginnen bereits bei der Bereitstellung der Texte. Es ist wohl selbstverständlich, dass die Verwendung fremder Texte nur dann erlaubt ist, wenn beide Parteien, der Urheber und der Teilende, davon Kenntnis haben und damit einverstanden sind. Schon an dieser Stelle sollte überprüft werden, ob der ggf. zu kaufende Text unique ist. Werden die Texte auf der Webseite verwendet, muss darauf geachtet werden, dass eventuell mehrmals verwendete Inhalte stets mit einem kanonischen Link ausgestattet sind, damit so kein unbemerkter Duplicate Content entsteht.

Werden Zitate, Eigennamen etc. verwendet, ist darauf zu achten, dass darüber hinaus auch genügend weiterführender und einzigartiger Text vorhanden ist, der den nachteiligen Effekt von Duplicate Content abschwächt. Teilweise ist es extrem schwierig, einen Text zu verfassen, der zu 100 % einzigartig ist. Ein Verhältnis von 70:30, d.h. 70 % Unique Content und 30 % nicht-einzigartiger Inhalt, sorgt dafür, dass der verwendete duplizierte Inhalt nicht negativ ins Gewicht fällt.

Auch wenn all diese Hinweise befolgt werden, kann es natürlich immer noch vorkommen, dass andere Webseitenbetreiber die Texte duplizieren. Nur durch eine stetige Überprüfung der Einzigartigkeit der verwendeten Inhalte kann gewährleistet werden, dass solche Vervielfältigungen nicht ungesehen stattfinden. Wer sich von den hier angesprochenen Dienstleistern wie CopyScape unterstützen lässt, geht dabei auf Nummer sicher. Wurde ein Duplikat gefunden, kann auf verschiedene Wege damit umgegangen werden.

Handelt es sich um einen “kleinen” Fall, in dem nur wenige Zeilen von einem privaten Blog o.Ä. übernommen worden sind, sollte stets versucht werden, zunächst Kontakt mit dem betreffenden Webseitenbetreiber aufzunehmen. Spätestens bei der Androhung strafrechtlicher Schritte, oft aber schon früher, ist es möglich, sich auf die Löschung der kopierten Inhalte zu einigen. In schwerwiegenderen Fällen – vor allem dann, wenn mit den duplizierten Inhalten Profit generiert wird – muss allerdings unbedingt ein Anwalt herangezogen werden, um gerichtliche Schritte einzuleiten und das Urheberrecht geltend zu machen.

Fazit

Plagiarismus spielt im Internet eine wichtige Rolle, gerade in Hinsicht auf das Verhältnis zwischen Unique Content und Duplicate Content. Zwar stellen Plagiate ein Problem dar, allerdings reguliert sich der Markt hier sozusagen oft auch selbst: User erkennen die Verwendung plagiierter Texte gegebenenfalls selbst und reagieren dann mit Missmut, die betreffenden Webseiten büßen so an Attraktivität ein. Duplicate Content-Suchmaschinen identifizieren Plagiate einwandfrei. Und nicht zuletzt arbeiten auch die Suchmaschinen selbst dagegen an, dass Content-Kopierer Fuß fassen können: Die stetigen Updates der Suchalgorithmen zeugen von der Bemühung, Suchanfragen stets mit dem höchstwertigen verfügbaren Content zu beantworten. Die Einzigartigkeit und Aktualität dieser Inhalte spielt bei der Auswahl eine ganz grundlegende Rolle.

Dennoch darf nicht darauf vertraut werden, dass sämtliche mit Plagiarismus verbundenen Probleme sich von selbst lösen. Jeder Webseitenbesitzer muss sich bemüht zeigen, den eigenen Unique Content zu schützen: Durch eine durchdachte Content-Strategie, regelmäßige Kontrollen und – im Worst Case – strafrechtliche Maßnahmen.

2 thoughts on “Kampf den Plagiaten! (Teil 2)”

Tom
9. Juni 2012 at 19:16

Das ist auch nur ein Teil der Problematik. Neue Scripte bzw. Spinner erstellen mittlerweile Texte von Originalen, die kaum noch zu finden sind. Angefangen hat das mit dem sog. Markov-Skript, das Texte intelligent spinned. Liest man diese Texte, erkennt man erst beim genauen Lesen, dass die Texte keinen Sinn mehr ergeben. Und es gibt mittlerweile noch viel boshaftere Scripte. In HTML werden viele Buchstaben (zum Beispiel Umlaute) mit Buchstaben- und Zahlenkombinationen dargestellt. Diese sind über das W3-Konsortium definiert.

Ein Teil des Codes, um bspw. “ä” darzustellem, wäre “auml” (entsprechend in Tags gebettet). Das haben sich einige smarte Coder zunutze gemacht und stellen auf diese Art und Weise Stoppwörter anders dar (und, mit, aber, wenn usw.). Dadurch entsteht für Google ein völlig neuer, uniquer Text (Google erkennt zum Teil nicht mal mehr die Sprache). Liest der Seitenbesucher aber den Text, sieht er einen zu hundert Prozent identischen Text zum Original. Selbst Copyscape sieht darin einmaligen Text, im schlechtesten Fall dann immer noch mit angegebener Wahrscheinlichkeit von 60-70 Prozent.
Deian Isac
8. Juni 2012 at 13:10

Interessanter und informativer Artikel. Was unter dem Punkt „Kann ein Plagiat “aus Versehen” entstehen?“ noch fehlt: Mittlerweile sind wahrscheinlich Milliarden Texte im Internet. Die Chance, dass ein Satz oder ein Teil davon identisch mit dem Satz eines anderen Textes, welcher zufällig dasselbe oder ein ähnliches Thema behandelt, ist relativ groß. Das Problem hatte ich bereits einmal, dass ich den Teil eines Satzes zufälligerweise genauso wie ein anderer Texter im Netz geschrieben habe. In Zukunft wird dieses Problem sicherlich noch häufiger auftreten, da immer mehr Artikel publiziert werden.

Blog content.de

News rund um den Marktplatz für Unique Content

Kampf den Plagiaten! (Teil 2)

2 thoughts on “Kampf den Plagiaten! (Teil 2)”

Schreibe einen Kommentar