Semalt: una súper guía para bloquear el spam de referidos en Google Analytics

Nik Chaykovskiy, el experto de Semalt , asegura que el spam de referencia es uno de los problemas que enfrentan actualmente los webmasters. La situación ha empeorado con los años, lo que significa que alguien en algún lugar gana mucho dinero creando spam de referencia.

Spam fantasma y de referencia

El spam ahora ha llegado a los informes de Google Analytics. Los spammers buscan vulnerabilidades en el sistema para que puedan aparecer en los informes de datos del sitio web. Lo hacen con la esperanza de despertar suficiente curiosidad hasta el punto de que el webmaster visite su sitio web para ver por qué están en el informe. El problema es que no aumentan el tráfico. Ni siquiera lo logran, ya que son bots. Utilizan el código de seguimiento JavaScrip utilizado por Google Analytics para crear una notificación de que hubo una visita. Terminan sesgando estadísticas vitales como las tasas de rebote y otros elementos utilizados para analizar el compromiso. Es imprescindible bloquear el spam de referencia si se necesitan datos precisos, especialmente si se basan en él para tomar decisiones de marketing.

Se hace difícil bloquear el spam de referencia, especialmente porque los spammers trabajan muy rápido, aumentando la tasa de ataques de spam y las fuentes. Significa que los webmasters deben mejorar el esfuerzo que realizan para eliminar y poner en la lista negra estas fuentes. Es particularmente problemático para las personas que tienen sitios nuevos que no reciben mucho tráfico legítimo. Un aumento en las tasas de spam en dichos sitios presentaría más asimetría, que podría ser incluso mayor que las visitas diarias que recibe.

¿Qué tan fácil es?

Una página carga los registros como una sola visita. Los spammers fantasmas usan el código de seguimiento de Google Analytics y envían datos de tráfico directamente a los informes, forjando así una visita. Puede llevar 0.001 segundos cargar una sola página en un servidor en alguna parte. Sin embargo, pueden haber forzado más de 100 de estas visitas falsificadas a las cuentas de Google de muchos otros sitios en todas partes. Es bastante fácil comprar un solo host. Mientras los spammers estén seguros del ROI, pueden hacer mucho daño con ellos.

Soluciones que se quedan cortas

Algunas técnicas son a veces tan avanzadas que las soluciones empleadas para bloquear el spam de referencia no funcionan. Uno de ellos es el misterioso servicio en línea llamado Darodar. Los siguientes métodos no lo borraron de GA.

  • El archivo .htaccess. No funciona porque el spam fantasma no toca el sitio
  • La lista de exclusión de referencias. Carece de actualizaciones.
  • Filtros de exclusión. Es un método desactualizado ya que solo se enfoca en el spam futuro y no retroactivo para las bases de datos de spam anteriores.

El filtro de exclusión estuvo a punto de eliminar el spam de referencia de Darodar. Su única limitación es que no tiene una lista constante y constantemente actualizada de remitentes de spam.

La pieza del rompecabezas que falta

Una solución práctica para identificar y bloquear referencias y datos fantasmas debe estar muy actualizada, provenir de una base de datos más amplia y retroactiva a la información pasada. Basado en los tres elementos para una solución óptima, aquí hay uno que funciona.

Paso 1: uso de segmentos para excluir spam

Es mejor usar segmentos ya que no alteran los datos de forma permanente. Si uno filtra accidentalmente referencias reales mientras usa filtros, no hay forma de recuperarlos. Es posible construir sobre datos antiguos utilizando segmentos, a pesar de cuánto tiempo ha estado allí. También se pueden aplicar retroactivamente.

Paso 2: mantenimiento de la lista de exclusión

Slack es una herramienta que los webmasters pueden usar para monitorear las fuentes de referencia. Notifica al usuario sobre cualquier nueva referencia y le da un aviso: si debe incluir en la lista blanca o en una lista negra una fuente de referencia sospechosa.

1. Slack recibe todas las referencias y

2. Utiliza un PHP para ordenar todos los resultados por orden de conteo, y luego envía la lista final al webmaster para ver si alguno le resulta familiar. Si no,

3. Reenvía todo el correo no deseado sospechoso a un canal inactivo que ofrece al usuario la posibilidad de elegir entre una lista blanca o una lista negra. Cualquiera que sea la opción que elijan, lleva al paso 4,

4. Redirige a una página que verifica el veredicto como una confirmación de selección.

5. Slack luego almacena y bloquea todos los spammers identificados en la base de datos

6. La visualización final de los datos limpios estará en formato regex. Cópielo y péguelo en Google Analytics.

Slack permite a los webmasters actualizar la lista de exclusión al menos cinco veces al día.

En realidad, varias soluciones pueden funcionar:

A pesar de ser un método probado, funcionaría aún mejor si el webmaster lo complementa con otras técnicas, solo para asegurarse de que cubran todas las bases. Además de dicha solución:

  • Haga clic en la casilla de verificación que indica a Google Analytics que excluya los robots y las arañas conocidos,
  • Aplique un "filtro de incluir nombre de host"
  • Usar cookies

El filtro inclusivo mencionado anteriormente es eficiente a veces, pero no es la mejor solución a largo plazo porque:

  • La suplantación de nombres de host no es difícil de hacer, y los spammers analíticos lo usan cada vez más como vulnerable.
  • Si la configuración es incorrecta, podría terminar filtrando referencias reales.

mass gmail