Fraude bajo control: Cómo la IA Generativa está revolucionando la detección en banca

1. Objetivo del modelo: Detección precisa y proactiva del fraude financiero

Este proyecto tuvo como meta diseñar un sistema de detección de fraudes que no solo identifique transacciones sospechosas en tiempo real, sino que también minimice los falsos positivos. El indicador clave fue la mejora del Precision@K en un entorno real con datos bancarios. Se implementó un modelo de Variational Autoencoder (VAE) entrenado con datos históricos de transacciones legítimas, permitiendo identificar desviaciones sutiles en el comportamiento del cliente como indicios de fraude.

2. Fuentes de datos utilizadas: transacciones reales y datos sintéticos

El sistema se alimentó de datos reales anonimizados provenientes de tarjetas de crédito (monto, hora, geolocalización, historial del cliente) y se complementó con datos sintéticos generados mediante GANs (Generative Adversarial Networks). Esta combinación permitió balancear clases altamente desiguales y entrenar el modelo con mayor robustez frente a nuevas variantes de fraude.

3. Proceso de modelamiento predictivo: del dato a la prevención

Primero, se aplicó feature engineering para extraer variables como la distancia entre locaciones, velocidad entre transacciones, y frecuencia anómala. Luego, se entrenaron modelos GAN para generar instancias sintéticas de fraudes y alimentar un VAE encargado de detectar desviaciones de comportamiento. Finalmente, se integró un sistema de decisión basado en umbrales adaptativos para enviar alertas a los sistemas antifraude de la entidad financiera. Todo se ejecutó en pipelines construidos con Python, TensorFlow y PyTorch.

4. Insights y conclusiones

Los modelos generativos permitieron detectar fraudes no vistos en entrenamientos tradicionales y reducir los falsos positivos hasta en un 25%. Además, se demostró que el uso de datos sintéticos no solo equilibra el entrenamiento, sino que habilita una mejor generalización del modelo a nuevas amenazas. Los resultados también mostraron que al usar técnicas de reconstrucción de VAEs, se pueden detectar patrones de fraude antes de que generen pérdidas significativas.

Conclusiones y siguientes pasos

La Generative AI está marcando un antes y un después en la lucha contra el fraude financiero. Su capacidad de adaptación, detección temprana y generación de escenarios sintéticos de ataque permite a los bancos adelantarse a los delincuentes. Como siguiente paso, se propone integrar modelos multimodales que combinen voz, texto y transacciones para robustecer la prevención en tiempo real y reducir aún más la fricción para el cliente.

Codigo en python

features_dict = {
«transaction_amount»: «Monto de la transacción en USD»,
«transaction_hour»: «Hora de la transacción (0-23)»,
«location_distance»: «Distancia entre transacciones consecutivas del cliente (km)»,
«transaction_interval»: «Tiempo entre la transacción actual y la anterior (segundos)»,
«merchant_category»: «Categoría del comercio (codificada numéricamente)»,
«customer_avg_spend»: «Gasto promedio del cliente en los últimos 30 días»,
«device_change_flag»: «1 si cambió de dispositivo, 0 si es el habitual»,
«geo_anomaly_score»: «Probabilidad estimada de anomalía geográfica»,
«weekday_flag»: «1 si la transacción ocurrió entre lunes y viernes, 0 si fue fin de semana»
}

Código: Pipeline simplificado con VAE para detección de fraude
python
Copiar
Editar
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.losses import MeanSquaredError
import matplotlib.pyplot as plt

Cargar datos simulados
df = pd.read_csv(«synthetic_transactions.csv»)
Diccionario de variables (ver arriba)
(aquí solo lo incluimos como referencia en el desarrollo)
Normalización de datos
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(df)
Definición de arquitectura VAE simple (autoencoder clásico)
input_dim = X_scaled.shape[1]
encoding_dim = 4

input_layer = Input(shape=(input_dim,))
encoded = Dense(encoding_dim, activation=’relu’)(input_layer)
decoded = Dense(input_dim, activation=’sigmoid’)(encoded)

autoencoder = Model(inputs=input_layer, outputs=decoded)
autoencoder.compile(optimizer=’adam’, loss=’mse’)

Visualización rápida
plt.hist(reconstruction_errors, bins=50)
plt.axvline(threshold, color=’r’, linestyle=’–‘)
plt.title(«Distribución de errores de reconstrucción»)
plt.xlabel(«Error»)
plt.ylabel(«Frecuencia»)
plt.show()

Entrenamiento
autoencoder.fit(X_scaled, X_scaled, epochs=50, batch_size=32, shuffle=True, verbose=1)

Predicción y detección de anomalías
reconstructions = autoencoder.predict(X_scaled)
reconstruction_errors = np.mean(np.square(X_scaled – reconstructions), axis=1)

Detección por umbral dinámico (percentil 95)
threshold = np.percentile(reconstruction_errors, 95)
df[‘anomaly_score’] = reconstruction_errors
df[‘is_fraud’] = df[‘anomaly_score’] > threshold