Unha nova arma contra o spam na ‘rexión fronteira’

Os datos indican que arredor da metade de todos os correos electrónicos en circulación son correo lixo ou spam, é dicir mensaxes non solicitadas, non desexadas e/ou de remitente descoñecido que os usuarios reciben nas súas contas de correo electrónico ou noutro medio de transmisión de información, como foros, mensaxería instantánea ou blogs, e que teñen por finalidade realizar publicidade, obtención de datos persoais, estafas económicas, introdución de virus ou outros prexuízos para o receptor. Dada a “enorme problemática asociada a eles”, Noemí Pérez desenvolveu na súa tese de doutoramento un novo modelo de clasificación do spam máis eficiente e tres algoritmos para clasificar os correos lixo que están na “rexión fronteira”, aqueles que non se poden clasificar con ningunha regra das que aplican os actuais clasificadores.

Noemí Pérez.
Noemí Pérez.

A tese, titulada Modelo intelixente para a clasificación de correos spam baseado no emprego de conxuntos aproximados, foi dirixida polo profesor José Ramón Méndez Reboredo e presentada na Escola Superior de Enxeñaría Informática do campus de Ourense. “Durante a realización deste traballo de investigación estudouse a efectividade de distintas técnicas populares no filtrado de correos lixo. Ademais, desenvolveuse un estudo sobre a inclusión de conxuntos aproximados na detección de correos ilexítimos e a súa posible combinación coas metodoloxías xa existentes para a mellora do filtrado”, explica a xa doutora.

A técnica dos conxuntos aproximados, indica a investigadora, é unha técnica que permite a partir dunha cantidade de datos xerar unha serie de regras de decisión. Unha desas regras de decisión pode ser, por exemplo, que se no correo aparece “buy” ou “viagra” é clasificado como correo lixo. Esta técnica, apunta, “posúe características que se adaptan á perfección ao dominio do filtrado de correo lixo: habilidade para descubrir patróns ocultos, identificación de relacións que os métodos estatísticos non proporcionan, xeración do conxunto de atributos mínimo para a clasificación e a posibilidade de xerar regras de decisión”. A pesar destas propiedades, os conxuntos aproximados constitúen unha técnica apenas usada neste ámbito ata o momento, segundo salienta a enxeñeira informática. “O traballo que realizamos introduce un novo modelo para o filtrado de correos lixo baseado no emprego de conxuntos aproximados xunto cunha nova aproximación para a rexión fronteira combinado con outras técnicas de aprendizaxe automática así como unha avaliación das técnicas máis usadas comunmente e unha comparativa destas co novo modelo proposto”, resume Noemí Pérez.

O modelo desenvolvido por Noemí Pérez incorpora características de aprendizaxe automática

No estudo realizado, engade Noemí Pérez, proponse “unha estratexia para a clasificación daqueles correos electrónicos que están na chamada rexión fronteira, aqueles que non se poden clasificar con ningunha regra”. Para acadalo, a investigadora desenvolveu tres heurísticas diferentes, ou algoritmos, que foron sometidas á comparación cos mellores clasificadores existentes para demostrar a súa efectividade. “En todos os casos a aplicación de conxuntos aproximados obtivo un maior número de correos correctamente clasificados e unha baixa taxa de erros de tipo falso positivo, só superado nalgúns casos polos clasificadores SVM e Flexible Bayes”, comenta.

O modelo proposto pola investigadora combina métodos de aprendizaxe automática, o conxunto de regras xerado mediante a utilización de conxuntos aproximados e a aproximación máis eficaz para clasificar correos na rexión fronteira desenvolvida durante a a elaboración da tese de doutoramento. A proposta resultante, indica Noemí Pérez, “saca partido da rápida execución das técnicas de aprendizaxe automática e a gran precisión alcanzada mediante o uso de conxuntos aproximados”. No estudo realizado, precisa a doutora, póñense de manifesto dúas conclusións moi importantes á hora de realizar a avaliación do correo lixo, como son a importancia dos erros de tipo falso positivo e todos os problemas asociados ao chamado “concept drift”, concepto que se refire á natureza cambiante do correo lixo. As técnicas que implementan aprendizaxe continua, indica neste senso a investigadora, “son máis tolerantes aos cambios da natureza do spam debido á actualización constante do coñecemento manexado polo modelo”.

“Debe terse en conta que os remitentes de correo lixo acumulan cada vez máis experiencia e agudizan o seu inxenio para que os seus correos non sexan detectables con facilidade. Isto, xunto coa natureza cambiante do contido destes correos e o enorme custe que esta práctica supón a empresas e usuarios, fai necesaria unha constante innovación nas técnicas de detección de spam”, comenta Noemí Pérez. Ademais, engade por último, resulta importante analizar de modo exacto a súa efectividade para non desperdiciar recursos e tempo en técnicas que non poidan proporcionar información útil.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.