Procedimientos de filtración de tráfico no válido general

Anterior Siguiente

Triton Digital emplea técnicas basadas en identificadores, actividades y patrones que dependen de los datos de los archivos de registro con el fin de identificar y filtrar (excluir) la actividad no válida, que incluye pero no se limita a actividad no humana conocida y sospechada y actividad humana no válida sospechada. Sin embargo, como el publisher, el anunciante o sus respectivos agentes no siempre pueden conocer la identificación y la intención del usuario, es improbable que pueda identificarse toda la actividad no válida y excluirse de los resultados del informe. Los detalles relativos a nuestras técnicas se describen a continuación.

Datos de registro no válidos o corruptos

Las sesiones o los pings de rastreo del oyente que no se adaptan al formato requerido hacen que los datos no válidos o corruptos se excluyan de las mediciones informadas.  A los publishers se les proporciona documentación sobre los formatos requeridos para pings de rastreo del oyente y sesiones de CDN de terceros.  Es responsabilidad de los publishers implementar estas técnicas según se requiera para una recopilación adecuada de datos.

Regla de un minuto

Debido a la naturaleza de la actividad de streaming y al comportamiento general del tráfico relacionado con robótica/arañas, Triton Digital utiliza un proceso mediante el cual las sesiones de streaming con una duración de menos de un minuto se consideran inválidas y se eliminan de todos los datos recopilados de mediciones. Esta regla reduce el ruido de sesiones sumamente cortas, actividades robóticas y problemas de conectividad inicial.

Esta regla se aplica a ambos métodos de recopilación de datos. Cuando la CDN proporciona archivos de registro, las sesiones con una duración de menos de un minuto no se insertan en la tabla de la base de datos que utiliza Webcast Metric. Cuando la recopilación de datos se realiza con el método de rastreo del oyente, se considera que una sesión está activa con el primer evento ping, que ocurre después de 60 segundos.

Las sesiones de menos de 60 segundos de duración se excluyen de las mediciones brutas y netas informadas.

Archivo de instrucción de robot

Triton Digital usa un archivo de instrucción de robot (robots.txt) en el directorio raíz de los servidores de rastreo del oyente y de streaming de Triton Digital.

Identificación específica de actividad no humana

Triton Digital utiliza la Lista de arañas y bots de IAB/ABCe International proporcionada por la Lista de arañas y bots* para excluir el tráfico del sitio asociado con la actividad robótica de los datos recopilados. Por ejemplo, este proceso de filtrado nos permite excluir las solicitudes HTTP de las arañas de los motores de búsqueda (Google, Bing, Yahoo, etc.). Esta lista es administrada por el Interactive Advertising Bureau (IAB) y actualizada mensualmente.

Triton Digital emplea y actualiza listas adicionales para excluir a los agentes de usuario inválido o incluir a los agentes de usuario conocido y válido si estos últimos no aparecen a tiempo en la lista interna de robots/arañas de IAB/ABCe.

* Para obtener más información, consulte: https://www.iab.com/guidelines/iab-abc-international-spiders-bots-list/

Exclusión de centros de datos

Triton Digital usa la lista de direcciones IP del centro de datos del TAG para excluir el tráfico no humano del centro de datos identificado por la industria. Por ejemplo, filtra datos de los sistemas de monitoreo de stream del centro de datos de Amazon. Esta lista es administrada por el Trustworthy Accountability Group (TAG) y actualizada mensualmente.

Filtración en función de la actividad

Triton Digital emplea múltiples niveles de procedimientos de detección basados en actividades para excluir las anomalías de datos generadas por el tráfico no válido. Las tendencias de datos y las técnicas de detección de tráfico no válido existentes se evalúan en busca de posibles mejoras de nuestro conjunto de procedimientos de detección basados en actividades.  

El tráfico no válido generado por las implementaciones deficientes de los publishers o las posibles fuentes de tráfico no válido se analizan con el publisher para remediar el problema subyacente y reducir los niveles generales de tráfico no válido.  

Tráfico generado internamente

En función de la dirección IP, Triton Digital elimina los datos de sesión de stream generados internamente de los datos recopilados de mediciones. El personal de Triton Digital emplea una red privada virtual (VPN), que es una red informática que utiliza Internet para brindar a los usuarios de oficina un acceso seguro para el tráfico interno. Esta dirección IP de la VPN se bloquea de las funciones de recopilación/informes o se excluye como tráfico no válido. Esta regla se aplica a ambos métodos de recopilación de datos y a nivel de la base de datos. Triton Digital también elimina el tráfico interno generado por las estaciones/publishers participantes de conformidad con una lista de direcciones IP provista por los publishers.

Regla de inactividad

Triton establece una “regla de inactividad” específica por la cual se evita que la duración de la sesión se sume al tiempo adicional de escucha en las mediciones informadas después de un umbral predeterminado. Las sesiones con una duración de más de veinticuatro horas se cortan a las veinticuatro horas según la regla de inactividad de Triton Digital. El tiempo acumulado antes de este umbral se considera potencialmente válido para la sesión. La sesión se evalúa de conformidad con el conjunto de procedimientos de detección de tráfico no válido de Triton Digital, además de esta regla de inactividad.

El publisher puede haber aplicado otras reglas de inactividad para continuar con la medición y el streaming digital de una sesión luego de la confirmación de la continuación de la escucha por parte del usuario.