Técnicas de filtrado de análisis

Cómo Omny Studio filtra y mide las mediciones del análisis

Omny Studio ofrece una variedad de informes de análisis para que los publishers comprendan qué, cuándo, dónde y cómo su contenido de audio se descarga y reproduce. El sistema de análisis mide las descargas del contenido, los suscriptores al contenido RSS de los podcasts, y el consumo del contenido teniendo en cuenta un amplio rango de criterios de valoración de publicidad.

Debido a la naturaleza de los reproductores de podcasts populares, como Apple Podcasts, el almacenamiento en caché en segundo plano, las descargas progresivas y los identificadores de oyentes limitados, las solicitudes del servidor de descarga de podcasts pueden no reflejar de forma exacta la cantidad de personas que han reproducido el contenido; por ello, el procesamiento de los datos se hace necesario.

Para garantizar que las mediciones se puedan definir y medir de manera consistente en toda la industria, el IAB ha publicado pautas sobre cómo se deben filtrar y medir los análisis de podcasts. La implementación real de estas directrices variará según el proveedor debido a las diferencias prácticas de diseño o técnicas. Este documento describe las diferentes técnicas de filtrado que usa Omny Studio.

Nota: Debido a que continuamente refinamos nuestros parámetros de filtrado y experimentamos con metodologías para mejorar la precisión de nuestras métricas, este documento puede modificarse de vez en cuando para reflejar cualquier cambio en nuestro enfoque.

Filtrado del análisis de las descargas

El análisis de descarga realiza un seguimiento de las descargas de todos los archivos de audio publicados, incluidos, entre otros, reproductores de podcasts, reproductores incrustados, y aplicaciones y sitios web de terceros. El siguiente filtrado se aplica a los archivos de registro que recopilamos y analizamos de las distintas CDN que admitimos.

Ignorar solicitudes HTTP no-GET

Al calcular las solicitudes de descargas, no contabilizamos las solicitudes HTTP con un método que no sea "GET".

No consideramos estas descargas porque observamos que algunos reproductores de podcasts usarán el método de solicitud HTTP "HEAD" para descargar metadatos de archivos sin descargar ningún contenido de audio.

Ignorar respuestas no correctas

No contabilizamos las solicitudes HTTP que no tuvieron una respuesta correcta. Específicamente, solo contamos las respuestas con un código de estado HTTP o 200 OK o 206 Partial Content.

No consideramos las solicitudes HTTP en las que la respuesta fue redirigida, no modificada o generada por error como descargas.

Ignorar solicitudes de rango HTTP de no reproducción

No contabilizamos las solicitudes de rango HTTP con un rango de 0-1, un rango de 0 bytes o un rango inválido. (Solo contabilizaremos las solicitudes sin un rango especificado)

No consideramos estas descargas porque observamos que algunos reproductores de podcasts usarán una solicitud 0-1 para verificar si el servidor admite las solicitudes de rango sin descargar ningún contenido de audio.

Ignorar bots y arañas conocidos

No contabilizamos las solicitudes de descarga con un usuario-agente de aplicación identificado como una aplicación de bot o araña conocida.

No consideramos estas descargas porque los bots y las arañas descargan regularmente archivos con fines de indexación y no se correlacionan con la escucha de los oyentes.

Utilizamos la base de datos de agente de usuario "UA-Parser" de código abierto mejorada con datos exclusivos adicionales para analizar usuarios-agentes. Esta base de datos se actualiza regularmente para detectar nuevas aplicaciones de podcasts y bots a medida que se van documentando.

Ignorar agentes de usuario no válidos o prohibidos

No contabilizamos las solicitudes de descarga sin agentes de usuario o si coincide con una lista de agentes de usuario que hemos identificado como aplicaciones problemáticas intencionalmente o no.

No consideramos estas descargas porque hemos observado algunas aplicaciones y reproductores móviles que generan una cantidad excesiva (p. ej., más de 100) de solicitudes de descarga que no se correlacionan con la escucha de los oyentes.

Ignorar el proveedor de servicios en la nube o las IP prohibidas

No contabilizamos las solicitudes de descarga de una lista de IP que hemos identificado como servidores de contenido de almacenamiento en caché de servicios de terceros y proveedores de servicios en la nube.

No consideramos estas descargas porque los servicios de terceros están descargando archivos para almacenamiento en caché y con fines de creación de reflejos y no se correlacionan con la escucha de los oyentes.

Nuestra base de datos de rangos de IP de proveedores de servicio en la nube incluye:

Amazon AWS
Cloudflare
DigitalOcean
Fastly
Google Cloud
Microsoft Azure
OVH
Triton Digital
TuneIn

Esta base de datos de rangos IP se actualiza regularmente con las listas oficiales publicadas por los proveedores y rangos IP registrados por el proveedor en el Registro Norteamericano de Números de Internet (ARIN, por sus siglas en inglés).

Ignorar descargas duplicadas por sesiones únicas

No contabilizamos las solicitudes de descarga duplicadas de una sesión única identificable (definida a continuación) en un período UTC de 24 horas (desde la medianoche UTC hasta la medianoche). Las descargas múltiples dentro de la ventana de deduplicación solo se contabilizarán una vez.

Debido a los identificadores de oyentes limitados disponibles en las aplicaciones de podcast, combinamos y analizamos los siguientes datos para identificar sesiones únicas de la mejor manera posible:

Fecha UTC
Dirección IP (IPv4 o IPv6* si está disponible)
Usuario-agente
Episode ID

* La dirección IPv6 se trunca a los primeros 64 bytes

Ignorar descargas parciales con menos de un minuto de contenido de audio

No contabilizamos las solicitudes de descarga en las que la cantidad de datos transferidos en una sesión única identificable (definida anteriormente) es inferior a un minuto de contenido de audio.

Calculamos el umbral mínimo de datos transferidos multiplicando la tasa de bits MP3 por 60 segundos más el tamaño de cualquier metadato y encabezado ID3 (al comienzo del archivo). Para archivos de audio de menos de 60 segundos, el umbral es el tamaño de todo el archivo.

Para cada sesión única, combinamos la cantidad de bytes entregados con éxito del servidor al cliente a través de una o múltiples solicitudes. Cuando el total de bytes entregados de la sesión es igual o mayor que el umbral mínimo, se cuenta como una descarga con la marca de tiempo de la solicitud más antigua de la sesión.

Archivos almacenados en la caché en otras plataformas

Algunas plataformas y servicios de terceros sindicados (p. ej., Google Play Podcast y Spotify) pueden almacenar en la caché archivos en sus propias plataformas. Las reproducciones en estas plataformas no registrarán una descarga en nuestro propio servidor. De acuerdo con las pautas IAB, recomendamos que las plataformas no almacenen en caché los episodios y siempre obtengan de la URL del contenedor.

Cuando sea posible, introduciremos y mostraremos estas mediciones por separado para las descargas en nuestros paneles de análisis.

Reproductores, aplicaciones y plataformas de terceros

Las directrices de medición de podcasts de la IAB recomiendan reproductores de podcast de terceros

No implemente la reproducción automática. Esto dará como resultado una mala experiencia de usuario para el usuario con audio que no esperaba escuchar.
No precargar, a menos que la intención sea claramente reproducir el podcast.
Use la información del encabezado ubicada al comienzo del podcast para evitar una descarga completa cuando no sea necesaria.
Para una descarga completa, solicite el archivo entero de una sola vez. Para una descarga progresiva, solicite el archivo en partes (rango de byte). De esta manera se puede distinguir una descarga completa de una descarga progresiva.
No modifique la URL del recinto al solicitar medios, no agregue parámetros adicionales.
No almacene caché de los episodios de podcasts en sus servidores. Siempre descargue el último episodio de la URL contenedora para cada usuario de la aplicación que quiera escucharlo.
Use el GUID, en lugar de la URL del episodio, el título, la fecha de publicación, etcetera, para identificar nuevos episodios en la fuente RSS que se deben descargar automáticamente en el dispositivo de un usuario. El GUID está diseñado para persistir frente a los cambios de entorno de alojamiento, títulos, etc.
Emplee un comportamiento de "cancelación de suscripción a la descarga automática" (por ejemplo, detener las descargas automáticas después de 5 episodios de no escucha).
No descargue automáticamente todos los episodios (por ej., episodios de listado antiguo) de forma predeterminada. Esto crea una sobrecarga en los servidores de los publishers y consume el ancho de banda de los usuarios.

También hacen las siguientes recomendaciones sobre la estructura de los agentes de usuario de un reproductor de podcast, el agente de usuario debe

Proporcione suficientes detalles en el encabezado de agente de usuario para permitir que se diferencie de manera coherente del agente de usuario de otros dispositivos. Siempre que sea posible, esto debe aplicarse tanto a fuentes RSS como a archivos de audio.
Evite agregar información innecesaria (como inyectar ID de usuario o sesión) a la cadena de agente de usuario y en las prácticas de codificación.
Se recomienda a las plataformas que envíen su valor de encabezado de agente de usuario a la lista de inclusión de IAB Spiders and Bots para que no se considere un bot y pueda ser una señal utilizada para determinar la información del dispositivo.
Si la aplicación o plataforma emplea el uso de bots para indexar contenido, se recomienda especificar un agente de usuario que sea distinto del agente de usuario de la aplicación e incluya la palabra "bot" para identificar claramente su caso de uso.

El formato recomendado es:
<app name>/<app version> <device info> <os name>/<os version> <other info>

Por ejemplo: AppName/1.2.3 DeviceBrand DeviceModel OSName/1.2.3 LibName/1.2.3

Filtrado del análisis de consumo

El análisis de consumo realiza un seguimiento del comportamiento de reproducción del contenido de audio en reproductores incrustados de Omny Studio y reproductores de terceros que hayan implementado nuestra API de reproductor de análisis de consumo.

Usamos el seguimiento del lado del cliente de los eventos del reproductor, como reproducir, pausar y buscar, con el fin de generar informes de comportamiento, por ejemplo, cuántas personas lo reprodujeron, durante cuánto tiempo y qué partes del contenido reprodujeron.

Identificar sesiones de reproducción

Usamos un identificar único global (GUID, por sus siglas en inglés) para identificar sesiones de reproducción únicas.

Pausar y buscar de forma repetida dentro del mismo contenido no se contabilizará como una sesión de reproducción nueva. Sin embargo, volver a cargar el reproductor o cambiar el contenido (en una lista de contenido) se considerará una sesión nueva aunque el usuario ya haya reproducido el contenido anteriormente.

Ignorar sesiones más cortas de 60 segundos

Ignoramos las sesiones de reproducción con una duración total inferior a 60 segundos.

Incluimos sesiones no consecutivas, por ejemplo, dos segmentos desde las 0:00 a las 0:05 y desde las 0:30 a las 0:36. Esta sesión se contabilizará, ya que la duración total de todos los segmentos fue 11 segundos.

No contamos las sesiones de menos de 60 segundos para alinearnos con IAB pautas.

Índice de documentación