Análisis comparativo de K-NN, Naïve-Bayes y regresión logística para la detección de fraude con tarjetas de crédito

Artículos de investigación
Kavita Arora

Manav Rachna International Institute of Research & Studies

Dr. Sonal Pathak

Manav Rachna International Institute of Research and Studies, Faridabad

Nguyen Thi Dieu Linh

Hanoi University of Industry

Introducción: este artículo muestra el resultado de un estudio comparativo de “varios algoritmos de machine learning, a saber, K-NN, Naïve-Bayes y regresión logística para la detección de fraudes con tarjetas de crédito”, realizado con base en un conjunto de datos tomado de UCI.com en 2022-23 en el Instituto Internacional de Investigaciones y Estudios Manav Rachna.

Problema: el fraude con tarjetas de crédito está muy extendido hoy en día y las modalidades son cada vez más variadas. A menudo, se oye hablar de casos de fraude que causan daños irreparables a bancos e instituciones financieras, que no pueden ser compensados en términos de costos. Para evitar estafas con diversos modos de tarjetas de crédito, se debe poder identificar y descubrir los modos que suelen utilizar los estafadores. Este esquema proporciona a dichas instituciones financieras y bancos información completa y adecuada utilizando técnicas de machine learning, no solo sobre los modos que suelen utilizar los estafadores o defraudadores, sino también sobre las formas de protegerse contra dichos fraudes.

Objetivo: el presente artículo analiza los diversos modelos de machine learning basados en clasificación y regresión, a saber, K-Nearest Neighbors (K-NN), Naïve Bayes y regresión logística, que pueden lograr con éxito una precisión de clasificación del 80% utilizando regresión logística con una precisión de 78%, Retiro del 100% y F1 Score del 88% para transacciones fraudulentas con tarjeta de crédito.

Método: el análisis comparativo muestra que, para los parámetros de precisión, recuperación y exactitud, el K-NN es un mejor enfoque para detectar transacciones fraudulentas que la regresión logística y el Naïve Bayes.
Resultados: la precisión es marginalmente alta en la regresión logística, pero los parámetros de falso positivo no pueden identificar los datos desequilibrados; por lo tanto, disfrazan los resultados y la precisión de la regresión logística y el K-NN se considera adecuado para tales casos.

Conclusión: este esquema describe los sistemas automatizados de clasificación de fraude que utilizan técnicas de machine learning, a saber, K-NN, Regresión logística y Naïve Bayes, para producir un modelo que pueda distinguir transacciones con tarjetas de crédito válidas e inválidas.

Originalidad: a través de esta investigación, se utilizan las características más relevantes para visualizar la precisión con la matriz de confusión y se obtienen cálculos de precisión a partir del conjunto de datos utilizado.
Limitaciones: se podrían haber utilizado técnicas de Deep learning para obtener mejores resultados.

Palabras clave: detección de fraude, K-Nearest Neighbor, Naïve Bayes, machine learning , regresión logística
Publicado
2023-09-22
Descargas
Métricas
Cargando métricas ...
https://plu.mx/plum/a/?doi=10.16925/2357-6014.2023.03.05