Estás leyendo la publicación: Anticipando nuevos dominios de spam a través del aprendizaje automático
Investigadores de Francia han ideado un método para identificar dominios recién registrados que es probable que los spammers de correo electrónico de gran volumen los utilicen de forma “golpeadora”; a veces, incluso antes de que los spammers hayan enviado un correo electrónico no deseado.
La técnica se basa en el análisis de la forma en que el marco de políticas del remitente (FPS), un método para verificar la procedencia del correo electrónico, se ha configurado en dominios recién registrados.
gracias al uso de pasivo sensores DNS (Sistema de nombres de dominio), los investigadores pudieron obtener datos DNS casi en tiempo real de la empresa Farsight, con sede en Seattle, lo que generó actividad SPF para registros TXT para una gama de dominios.
Usando un algoritmo de peso de clase originalmente diseñado para el procesamiento de datos médicos desequilibrados, e implementado en el scikit-aprender biblioteca Python de aprendizaje automático, los investigadores pudieron detectar tres cuartas partes de los dominios de spam pendientes en unos instantes, o incluso antes de su operación.
El documento dice:
‘Con una sola solicitud al registro TXT, detectamos el 75% de los dominios de spam, posiblemente antes del inicio de la campaña de spam. Por lo tanto, nuestro esquema brinda una importante velocidad de reacción: podemos detectar a los spammers con un buen rendimiento incluso antes de que se envíe cualquier correo y antes de que se produzca un pico en el tráfico de DNS’.
Los investigadores afirman que las características utilizadas en su técnica podrían agregarse a los sistemas de detección de spam existentes para aumentar el rendimiento y sin agregar una sobrecarga de cómputo significativa, ya que el sistema se basa en datos SPF deducidos pasivamente de fuentes de DNS casi en tiempo real que ya están en uso. para diferentes enfoques del problema.
El papel se titula Detección temprana de dominios de spam con DNS pasivo y SPFy proviene de tres investigadores de la Universidad de Grenoble.
Actividad FPS
SPF está diseñado para evitar la suplantación de direcciones de correo electrónico, al verificar que se haya utilizado una dirección IP registrada y autorizada para enviar un correo electrónico.
Otros métodos de verificación de correo electrónico incluyen DomainKeys Identified Mail (DKIM) Firmas y Autenticación, informes y conformidad de mensajes basados en dominios (DMARC).
Los tres métodos deben registrarse como registros TXT (ajustes de configuración) en el registrador de dominios para el dominio de envío auténtico.
Spam y grabar
Los spammers exhiben un “comportamiento de firma” en este sentido. Su intención (o, al menos, el efecto colateral de sus actividades) es ‘quemar’ la reputación del dominio y sus direcciones IP enviando correo masivo hasta que los proveedores de red tomen cualquiera de las medidas que venden estos servicios; o las direcciones IP asociadas están registradas en listas populares de filtros de spam, lo que las hace inútiles para el remitente actual (y problemáticas para los futuros propietarios de las direcciones IP).
Cuando la ubicación del dominio ya no es practicable, los spammers pasan a otros dominios y servicios según sea necesario, repitiendo el procedimiento con nuevas direcciones IP y configuraciones.
Datos y Métodos
Los dominios estudiados para la investigación cubren el período de tiempo entre mayo y agosto de 2021, según lo dispuesto por Farsight. Solo se consideraron dominios recién registrados, ya que esto concuerda con la modus operandi del spammer persistente.
La lista de dominios se creó a partir de datos del Servicio de datos de la zona central (CZDS) de la ICANN. Información de la lista negra de la SURBL y SpamHaus se utilizó para efectuar la identificación casi en tiempo real de registros de nuevos dominios potencialmente problemáticos, aunque los autores admiten que la naturaleza imperfecta de las listas de spam puede llevar a que los dominios benignos se clasifiquen accidentalmente como posibles fuentes de correo masivo.
Después de capturar las consultas DNS TXT a los dominios recién registrados que se encuentran en el feed de DNS pasivo, solo se conservaron las consultas con datos SPF válidos, lo que proporcionó la verdad básica para los algoritmos.
SPF tiene una serie de características utilizables; el nuevo documento ha descubierto que, si bien los propietarios de dominios ‘benignos’ suelen utilizar el +incluir mecanismo, los spammers tienen el mayor uso de la (ahora en desuso) +ptr característica.
Una búsqueda +ptr compara la dirección IP del correo de envío con cualquier registro que exista para una asociación entre esa IP y el nombre de host (es decir, GoDaddy). Si se descubre el nombre de host, su dominio se compara con el que se utilizó por primera vez para hacer referencia al registro SPF.
Los spammers pueden explotar el aparente rigor de +ptr para presentarse de una manera más creíble, cuando en realidad los recursos necesarios para realizar búsquedas de +ptr a escala hacen que muchos proveedores se salten la verificación por completo.
En resumen, la forma en que los spammers usan SPF para asegurar una ventana de oportunidad antes de que comience la operación de ‘explosión y quema’ representa una firma característica que puede inferirse mediante el análisis de la máquina.
Dado que los spammers a menudo se trasladan a rangos de IP y recursos muy cercanos, los investigadores desarrollaron un gráfico de relaciones para explorar la correlación entre los rangos de IP y los dominios. El gráfico se puede actualizar casi en tiempo real en respuesta a nuevos datos de SpamHaus y otras fuentes, y se vuelve más útil y completo con el transcurso del tiempo.
Los investigadores afirman:
‘El estudio de estas estructuras puede resaltar posibles dominios de spam. En nuestro conjunto de datos, encontramos [structures] en el que decenas de dominios utilizaban el mismo [SPF] y la mayoría de ellos aparecían en listas negras de spam. Como tal, es razonable suponer que es probable que los dominios restantes aún no hayan sido detectados o que aún no sean dominios de spam activos.’
Resultados
Los investigadores compararon la latencia de detección de dominios de spam de su enfoque con SpamHaus y SURBL durante un período de 50 horas. Informan que para el 70 % de los dominios de spam identificados, su propio sistema fue más rápido, aunque admiten que el 26 % de los dominios de spam identificados sí aparecieron en las listas negras comerciales en la hora siguiente. El 30% de los dominios ya estaban en una lista negra cuando aparecieron en el feed de DNS pasivo.
Los autores reclaman una puntuación F1 del 79 % en comparación con la verdad sobre el terreno basada en una sola consulta de DNS, mientras que los métodos de la competencia, como Exposición puede requerir una semana de análisis preliminar.
Ellos observan:
‘Nuestro esquema se puede aplicar en las primeras etapas del ciclo de vida de un dominio: usando DNS pasivo (o activo), podemos obtener reglas SPF para dominios recién registrados y clasificarlos inmediatamente, o esperar hasta que detectemos consultas TXT a ese dominio y refinar el clasificación utilizando características temporales difíciles de evadir.
Y continúa:
‘[Our] El mejor clasificador detecta el 85 % de los dominios de spam y mantiene una tasa de falsos positivos por debajo del 1 %. Los resultados de la detección son notables dado que la clasificación solo usa el contenido de las reglas SPF del dominio y sus relaciones, y características difíciles de evadir basadas en el tráfico DNS.
“El rendimiento de los clasificadores se mantiene alto, incluso si solo se les dan las características estáticas que se pueden recopilar a partir de una sola consulta TXT (observada de forma pasiva o consultada de forma activa)”.
Para ver una presentación sobre el nuevo método, vea el video incrustado a continuación:
Publicado por primera vez el 5 de mayo de 2022.