Markus Baersch

Software · Beratung · Lösungen

Start » Blog » Analytics / Webtools

23.08.2018

Anfang des letzten Jahres habe ich unter der Überschrift "ist Spam besiegt?" erstmals Zahlen zum Volumen von Spammern und Opfern, dem Anteil von Spam im Verweistraffic und der zeitlichen Entwicklung von Spam in Google Analytics veröffentlicht. Die Zahlen basierten auf der massenhaften Auswertung der Verweise für alle mir zur Auswertung selbst zur Verfügung stehenden Analytics - Properties von eigenen Websites und den Sites betreuter Kunden.

Diese Untersuchung habe ich seitdem monatlich fortgeführt. Zudem habe ich vor einiger Zeit damit begonnen, den Anteil an Spam im Verweistraffic als Event zu messen, wenn eine Spamanalyse mit Analytrix durchgeführt wurde - freilich ohne Bezug zur untersuchten Property oder gar Domain; nur den ermittelten Gesamtanteil an Spam, um eine von "meinen" Daten unabhängigere Messung zu ermöglichen. Hier nun zu beiden Methoden ein paar Zahlen als Update zur "Studie" aus dem letzten Jahr.

Langzeitentwicklung der Spammer und Opfer nach Monaten

Das monatliche Volumen von Spamquellen und -opfern ist wohl der aussagekräftigste Indikator, wenn man eine Antwort auf die Frage "wie viel Spam haben wir derzeit" sucht. Wenngleich ich leider bei der Suche nach neuen und aktiven Spamquellen auf einen sehr kleinen Pool von Spamkontrollprofilen einzelner Websites angewiesen bin, finde ich doch fast jeden Monat einige neue Quellen, die ich in der Liste der bekannten Spammer in Analytrix nachtrage und die bei der Analyse berücksichtigt werden. Das bedeutet zwar, dass die Auswertung nicht mehr wie zur initialen Erhebung auf einen konstanten Pool an untersuchten Properties und bekannten Spamquellen basiert, aber wenn man bedenkt, dass die durchschnittliche "Lebensdauer" einer Spamquelle etwa 3 Monate beträgt und auch die untersuchten Properties zwar nicht immer die gleichen, aber in der Anzahl zumindest einigermaßen konstant waren, mag man die Diagramme trotzdem fortführen, ohne jedem Monat alle Zahlen aller vergangenen Monate auf der gleichen Basis neu zu erheben. Ich jedenfalls habe das nicht getan und ja, das ist unwissenschaftlich.

Mit diesen Einschränkungen hier die fortgeführten Verlaufsdiagramme zu Spam-Quellen und betroffenen Properties.

Verlauf Spam-Quellen bis 07/2018

Verlauf Spam-Opfer bis 07/2018

Beide Diagramme kommunizieren in Summe eine Antwort auf die obige Frage: Spam ist weniger geworden, das Hoch aus dem November 2016 zur US-Wahl bleibt unerreicht, aber das Thema ist nach wie vor nicht "vom Tisch". Die Anzahl der aktiven Spammer ist ebenso relativ unstetig. Es scheint aber wirklich so etwas wie ein "Sommerhoch" zu geben, wenn es um Verweisspam geht.

Prozentualer Anteil von Spam lt. Analytrix: Meistens gering 😉

Wie oben beschrieben, habe ich mir als weitere Datenquelle die gesammelten Werte zum Anteil von Spam im Verweistraffic vorgenommen, den ich als Event in der Webanalyse bei analytrix.de erhebe, wann immer dort ein Spam-Check durchgeführt wird. Durch die reine Messung dieser Ergebniskennzahl ohne Bezug zur untersuchten Property stecken dort zwar potentiell auch einige Ergebnisse drin, die deshalb mehrfach vorkommen, weil die gleiche Domain mehrfach von Analytrix-Nutzern untersucht wurde, aber dennoch ist das Ergebnis aus ca. 2100 Checks seit Implementierung der Messung des Anteils interessant:

  • Der Spitzenwert liegt bei satten 34,09% Spam. Dieser Wert, der nach Ausreißer riecht, ist nicht allein in der Klasse von 30% und mehr, aber sicher dennoch eine Ausnahme. Möglicherweise liegt dieser auch nicht an viel Spam, sondern nur wenig Verweistraffic - ich weiß es (absichtlich) schlichtweg nicht genauer 😉
  • 38% haben gar nichts beim Check gefunden. Das passt grob zur nach wie vor in der obigen Grafik steckenden Aussage, dass man eine etwa 40-50% Chance hat, kein Spam-Problem zu haben (die Anzahl der dort ausgewerteten Properties schwankt stets um die 200).
  • 63% über alle Checks liegen unter 1% Spam. Wer also  im Verhältnis "nur wenig" Spam hat, kann ihn vielleicht dennoch einfach ignorieren.
  • 5% der Ergebnisse liegen sogar über 20% Spam - Anteil

Hier auch dazu die Verteilung des Spam-Anteils, den ich in Klassen bis 1, 5, 10, 20 und 20+ aufgeteilt habe und ausnahmsweise finde, dass man eine Torte verwenden kann, um sie zu visualisieren:

Anteil von Spam lt. analytrix.de

Fazit

Da das Thema offenbar nach wie vor weiter relevant sein kann, wenn es um Datenqualität in Google Analytics geht, werde ich die monatliche Untersuchung einstweilen weiterführen. Wer dabei helfen will, die dazu erforderlichen aktiven Spamquellen zu identifizieren, findet auf analytrix.de eine Anleitung zum freiwilligen Beitrag zum Spamwetterbericht. Klingt kompliziert, ist es aber nicht; bei Bedarf oder für Rückfragen einfach eine Mail senden 🙂

 

© 2001 - 2018 Markus Baersch