Colección de citas famosas - Frases motivadoras - Control de riesgos del análisis de datos

Control de riesgos del análisis de datos

A principios de la década de 1990, las empresas financieras estadounidenses de tarjetas de crédito, lideradas por American Express, comenzaron a utilizar el modelado de datos para mejorar las capacidades de control de riesgos y resolver problemas como el marketing de precisión. Discover, Capital? One le siguió de cerca.

En 1995, el modelo de control de riesgos de AMEX comenzó a funcionar a prueba y el sistema de control de riesgos se lanzó oficialmente en 1997. En los años siguientes, AMEX mantuvo un rápido crecimiento y redujo los no reembolsables. préstamos productivos a los más bajos de la industria

En 2008, Discover trasladó su centro de análisis de datos global a Shanghai. Los talentos de control de riesgos que fluyen de este centro han llenado las principales compañías financieras mutuas de China

Tipos de negocios: préstamos hipotecarios (préstamos hipotecarios, préstamos para automóviles), préstamos de crédito (como préstamos Yiren), préstamos al consumo a plazos. (teléfonos móviles y electrodomésticos), etc.), pequeños préstamos en efectivo (500/1000/1500), etc.

Empresas involucradas en el control de riesgos: 1) Recopilación de datos: incluidos datos crediticios, datos del operador, rastreadores , puntos enterrados del sitio web y datos históricos de préstamos, lista negra, datos de terceros, etc.

?2) Motor antifraude: incluye principalmente reglas antifraude y modelos antifraude.

?3) Motor de reglas: a menudo denominado estrategia. Utiliza principalmente métodos de análisis de datos para contar las tasas de morosidad en diferentes campos y en varios intervalos, y luego selecciona personas con buen crédito para otorgar préstamos

4) Modelo de control de riesgos y cuadro de mando: no existe una diferencia significativa entre los algoritmos modelo, pero se dividen según los diferentes momentos en que ocurren (antes del préstamo/durante el préstamo/después del préstamo), es decir, la forma en que se genera el objetivo es diferente. Generalmente en el campo de crédito, la variable objetivo se define por el número de días de mora. La tarjeta A puede usar la cantidad máxima de días de mora en el historial del cliente y la tarjeta B puede usar el préstamo vencido más grande entre múltiples cuotas. Las tarjetas C tienen diferentes métodos de establecimiento debido a diferentes usos

5) Recolección: Es el medio definitivo de control de riesgos. Este enlace puede generar una gran cantidad de datos que son útiles para el modelo, como descripciones de texto de registros de cobranza, tasas de alcance, etiquetas de fraude, etc.

1) Los rastreadores pueden rastrear información de aplicaciones móviles. Podemos dividir las APP móviles en 4 categorías: herramientas, redes sociales, entretenimiento y finanzas. Calcula el número de cada tipo de APP, de modo que queden 4 características

2) A partir de los datos del operador se puede saber cuántas llamadas realizó el cliente, cuántos mensajes de texto envió, cuántos datos utilizados y si tienen deudas Tarifas y otra información

3) El informe de crédito suele ser una puntuación de crédito simple. Generalmente, cuanto mayor sea la puntuación, mejor será la calidad del cliente.

4 ) A partir de la información básica Obtenga retratos de usuarios, como edad, sexo y registro de hogar a partir de la tarjeta de identificación.

La versión mejorada de la lista negra es el motor de reglas. Sin embargo, es generado por la experiencia. Por ejemplo, una compañía de seguros puede negarse a contratar un seguro de devolución para personas que devuelven productos cinco veces seguidas o cuyo índice de devolución alcanza el 80%. Las reglas suelen requerir mucho esfuerzo para mantenerse y actualizarse y modificarse constantemente; de ​​lo contrario, provocarán una gran cantidad de errores de juicio. Si el monto o número de retiros de efectivo sospechosos excede una cierta cantidad, se recomienda denegar el acceso o prestarle especial atención. Si el número de solicitudes de préstamo solicitadas dentro de XX días es mayor que un valor determinado, se recomienda rechazarlo.

Por ejemplo, podemos establecer una regla de acceso, como que la ocupación es funcionario, médico, abogado, etc

También puede establecer el principio de préstamo directo, por ejemplo, si la puntuación de Sésamo es superior a 750 puntos.

Cómo determinar la variable objetivo: tome una tarjeta como ejemplo, principalmente pasando por roll-rate y vintage. Por ejemplo, podemos definir a los clientes que están vencidos por más de 60 días en 8 meses como malos clientes, y a los clientes que no están vencidos en 8 meses como buenos clientes. Los clientes con vencimiento de ocho meses y entre 0 y 60 días se consideran clientes inciertos y se excluyen de la muestra.

1) Trabajo preparatorio: diferentes modelos están dirigidos a diferentes escenarios comerciales. Antes de comenzar el proyecto de modelado, es necesario tener una comprensión clara de la lógica y los requisitos comerciales.

2) Modelo. diseño: Incluyendo selección de modelo (cuadro de mando o modelo integrado), modelo único o segmentación de modelo.

Si es necesaria la inferencia de rechazo y cómo definir el período de observación, el período de desempeño y los buenos y malos usuarios. Determine la fuente de datos

3) Extracción y limpieza de datos: obtenga datos del grupo de datos de acuerdo con la definición del período de observación y el período de rendimiento, y realice la limpieza de datos y la verificación de la estabilidad. La limpieza de datos incluye anomalías, eliminaciones y duplicaciones. La verificación de estabilidad examina principalmente la estabilidad de las variables en series de tiempo. Los indicadores incluyen PSI, IV, valor promedio/varianza, etc.

4) Ingeniería de características: principalmente el preprocesamiento y selección de características. El cuadro de mando se examina principalmente por IV. Además, la construcción de características se llevará a cabo en función de la comprensión del negocio, incluida la intersección de características (multiplicación/división/producto cartesiano de dos o más características), conversión de características, etc.

5) Establecimiento del modelo y evaluación: cuadro de mando Se puede utilizar la regresión logística. Si solo necesita hacer predicciones de dos clases, puede elegir xgb. Una vez construido el modelo, debe evaluar el modelo y calcular auc y ks. Y realice una validación cruzada del modelo para evaluar la capacidad de generalización.

6) Implementación del modelo en línea: configure las reglas del modelo en el fondo del control de riesgos. Para algunos modelos complejos como xgb, el archivo del modelo generalmente se convierte en. formato pmml y encapsulado. Cargue archivos y parámetros de configuración en segundo plano

7) Monitoreo del modelo: en la etapa inicial, el objetivo principal es monitorear la estabilidad del modelo general y las variables. El principal estándar de medición es el PSI (¿índice de estabilidad poblacional?). De hecho, psi es la diferencia entre las proporciones reales y esperadas de cada intervalo de puntuación después de dividirlo en intervalos por puntuaciones. Si es inferior a 10, no es necesario actualizar el modelo. Si es menos de 25, debes centrarte en el modelo. Si es mayor que 25, es necesario actualizar el modelo. El modelo de cálculo psi generalmente usa la misma frecuencia y se puede dividir en 10 cuadros

1. ¿Cuáles son los significados y diferencias de la tarjeta A, la tarjeta B y la tarjeta C?

Una tarjeta ( tarjeta de puntuación de la aplicación): es decir, tarjeta de puntuación de la aplicación, durante el período de procesamiento de la solicitud del cliente, predice la probabilidad de riesgo de incumplimiento y de incumplimiento dentro de un cierto período de tiempo después de que el cliente abre una cuenta, eliminando efectivamente las solicitudes de clientes con mal crédito y sin -clientes objetivo. Al mismo tiempo, se fija la valoración del riesgo para los clientes, determinando el límite y el tipo de interés. Los datos utilizados son principalmente el historial crediticio pasado del usuario, préstamos a largo plazo, registros de consumo y otra información.

Tarjeta B (tarjeta de puntuación de comportamiento): Tarjeta de puntuación de comportamiento durante el período de gestión de la cuenta, predice el rendimiento crediticio futuro de la cuenta en función de varias características de comportamiento mostradas en el historial de la cuenta. El primero es prevenir y controlar los riesgos crediticios, y el segundo es ajustar el límite de usuarios. Los datos utilizados son principalmente el inicio de sesión del usuario, su navegación, su comportamiento de consumo y otros datos en esta plataforma. También hay datos sobre el rendimiento de los préstamos, como los reembolsos de los préstamos y los préstamos vencidos.

Tarjeta C (¿cobro? ¿puntuación? tarjeta): tarjeta de puntuación de cobro, que predice la probabilidad de respuesta a las estrategias de cobro de cuentas vencidas, para tomar las medidas de cobro correspondientes.

La diferencia entre las tres tarjetas:

Los requisitos de datos son diferentes: una tarjeta generalmente puede realizar análisis de crédito para préstamos de 0 a 1 año. La tarjeta B es un análisis que se realiza después de que el solicitante ha realizado ciertos comportamientos y tiene datos más amplios. La tarjeta C tiene mayores requisitos de datos y necesita incluir datos de atributos, como la respuesta del cliente después de la recopilación.

Diferentes características: una tarjeta utiliza principalmente información de antecedentes del solicitante, como información básica completada por el cliente, y una tercera Información del partido. Y este modelo es en general más cauteloso. B Card aprovecha muchas funciones basadas en transacciones.

2. Por qué elegir el modelo de regresión logística en el campo del control de riesgos, y cuáles son sus limitaciones

1) En primer lugar, porque la sensibilidad de la regresión logística a los cambios en el cliente Los grupos no son tan buenos como otros modelos de alta complejidad, por lo que tienen buena robustez.

2) El modelo es intuitivo, el significado de los coeficientes es fácil de explicar y de entender.

La desventaja es que es fácil de ajustar y la precisión no es muy alta. Además, los requisitos de datos son relativamente altos y las eliminaciones, anomalías y la linealidad de las características son todas sensibles

3. ¿Por qué usar IV en lugar de WOE para filtrar características?

Porque IV considera la muestras en el grupo El efecto de la proporción.

Incluso si el WOE de este grupo es alto, si la proporción de muestras en el grupo es pequeña, la capacidad predictiva final de esta característica puede seguir siendo muy pequeña

4. Indicadores ROC y KS (ks es 0,2 -0,75, auc es 0,5-0,9 es mejor)

La curva ROC considera TP y FP como abscisas y ordenadas, mientras que la curva KS considera TP y FP como ordenadas, y la abscisa es el umbral. KS puede encontrar el grupo con la mayor diferencia en el modelo. Si es mayor que 0,2, se considera que tiene una precisión de predicción relativamente buena. Y ROC puede reflejar el efecto de diferenciación general

5. Método de agrupamiento y badrate monótono

Actualmente en la industria, muchas personas usan algoritmos codiciosos para agrupar, como best_ks, chi-square Packaging etc. La monotonicidad de Badrate solo se considera durante el proceso de agrupación de variables numéricas continuas y variables discretas ordinales (como educación/tamaño). En cuanto a por qué deberíamos considerar la monotonía del badrate, se debe principalmente a la comprensión empresarial. Por ejemplo, cuanto más atrasada es la historia, mayor es el badrate.

6. Por qué los diferentes modelos de control de riesgos generalmente no utilizan las mismas funciones

Las personas que son rechazadas se deben a que ciertas funciones funcionan mal. Si se utilizan las mismas características para la selección repetida, a medida que pase el tiempo, estas personas ya no se incluirán en las muestras modeladas en el futuro. De esta manera, la distribución muestral de características cambia.

7. ¿Cuáles son los algoritmos no supervisados ​​utilizados en el control de riesgos?

Algoritmo de agrupamiento, detección de valores atípicos basada en gráficos, LOF (factor de valores atípicos locales), bosque aislado, etc.

8. Agrupación de chi-cuadrado

La agrupación de chi-cuadrado es un método de discretización de datos basado en la fusión. La idea básica es que los intervalos adyacentes tienen distribuciones de clases similares y se fusionarán. El valor cuadrado es un estándar para medir la similitud entre dos intervalos. Cuanto menor es el valor de chi-cuadrado, más similar es. Por supuesto, es imposible fusionarlo indefinidamente. el grado de libertad y confianza, por ejemplo, el número de categorías es N, entonces el grado de libertad es N-1 y el grado de confianza representa la probabilidad de ocurrencia. Generalmente se puede tomar como 90.

9. agrupación best-ks

A diferencia de la agrupación chi-cuadrado, la agrupación best-ks es un proceso de división paso a paso. Ordene los valores de las características de pequeño a grande, el valor con el KS más grande es el punto de corte y luego divida los datos en dos partes. Repita este proceso hasta que el número de cajas alcance nuestro umbral preestablecido.

10. Inferencia de rechazo (¿rechazar? Inferencia)

El cuadro de mando de la aplicación utiliza los datos históricos de los clientes de crédito aprobados para construir un modelo, pero este modelo ignorará aquellos que fueron rechazados originalmente. El impacto de determinados segmentos de clientes en el modelo de cuadro de mando. El modelo debe modificarse rechazando la inferencia para hacerlo más preciso y estable. Alternativamente, los cambios en las reglas de la compañía pueden permitir que los clientes que fueron rechazados en el pasado regresen ahora. Adecuado para escenarios con índices de aprobación medios y bajos.

Método de uso común: método de truncamiento estricto: primero use el modelo inicial para calificar a los usuarios rechazados y establecer un umbral. Una puntuación superior a esta se marca como buen usuario, y una puntuación inferior a esta se marca como mal usuario. Luego agregue los usuarios rechazados marcados a la muestra para volver a entrenar el modelo. Método de asignación---Este método es adecuado para cuadros de mando. Las muestras se dividen en grupos según sus puntuaciones y se calcula la tasa de incumplimiento de cada grupo. Luego, los usuarios rechazados se califican y agrupan de acuerdo con el método anterior, según la proporción de muestreo de la tasa de incumplimiento de cada grupo, los usuarios predeterminados en este grupo se seleccionan al azar y se designan como malos usuarios, y los restantes se marcan como buenos usuarios. Luego agregue los usuarios rechazados marcados a la muestra para volver a capacitarlos

11. Cómo garantizar la estabilidad del modelo durante el proceso de modelado

1) En la etapa de preprocesamiento de datos, las variables pueden verificarse en la serie temporal Para mejorar la estabilidad, los métodos incluyen: calcular la diferencia en los IV mensuales, observar cambios en la cobertura variable, diferencias del PSI en dos momentos temporales, etc. Por ejemplo, seleccionamos el conjunto de datos de enero a octubre, nos basamos en la idea de la verificación K-fold y obtuvimos 10 conjuntos de resultados de verificación. Observe si hay un cambio de tendencia relativamente grande en el modelo a medida que pasa el mes

2) En la etapa de selección de variables, elimine las variables que sean contrarias a la comprensión empresarial.

Si es un cuadro de mando, puede eliminar variables con una discriminación demasiado fuerte. El modelo se verá demasiado afectado por esta variable y la estabilidad disminuirá.

3) Realice una validación cruzada, una es la validación cruzada a tiempo. serie, y el otro es validación cruzada en series de tiempo. El primero es validación cruzada K-fold

4) Elija un modelo con buena estabilidad. Por ejemplo, xgb? Bosque aleatorio, etc.

12. Cómo lidiar con características dispersas de alta dimensión y características débiles

Para características dispersas de alta dimensión, la regresión logística es mejor que gbdt. El término de penalización de este último es principalmente la profundidad del árbol y el número de hojas, lo cual no es grave para datos escasos y es fácil de sobreajustar. Con el cuadro de mando de regresión logística, puede discretizar las características en 0 y no 0, y luego realizar una codificación woe.

Si se utiliza el modelo de cuadro de mando, las características débiles generalmente se descartarán. El número de características en el cuadro de mando no debe ser demasiadas, generalmente menos de 15. Sin embargo, xgb no tiene altos requisitos de datos y tiene buena precisión. La combinación cruzada de algunas características débiles puede tener efectos inesperados.

13. Después de poner el modelo en línea, se descubre que la estabilidad no es buena o que el efecto de diferenciación en línea no es bueno.

¿Cómo ajustarlo? La estabilidad no es buena, primero verifique si se consideró al modelar la estabilidad característica. Si se encuentran variables con poca estabilidad en la etapa inicial del modelo, considere descartarlas o reemplazarlas con otras variables. Además, analice la diferencia de distribución entre usuarios y usuarios en línea y fuera de línea durante el modelado, y considere agregar un paso para rechazar la inferencia durante el modelado para acercar la distribución de las muestras de modelado a los usuarios solicitantes generales reales

Efectos en línea Si no es bueno, se puede analizar desde la perspectiva de las variables. Elimine variables con malos resultados y explore nuevas variables para agregar al modelo. Si un modelo ha estado en línea durante mucho tiempo y los atributos del usuario están cambiando gradualmente, entonces vuelva a adquirir los datos y cree el modelo

14. Cómo iniciar en frío el modelo de control de riesgos

Cuando el producto se lanza por primera vez, no hay datos de usuario acumulados, o los usuarios no se desempeñan bien o mal. En este momento, puede considerar: 1) No hacer modelos, solo hacer reglas. Con experiencia empresarial, establezca algunas reglas estrictas, como establecer umbrales de acceso de los usuarios, considerar el historial crediticio de los usuarios y los riesgos a largo plazo, y conectarse a servicios antifraude de terceros y reglas de productos de datos. También se puede combinar con la revisión manual para realizar una evaluación de riesgos en los materiales de la aplicación del usuario. 2) Utilice datos de modelos similares para modelar.

15. Problema de desequilibrio de muestra

Además de ajustar los pesos de clase, se utilizan principalmente métodos de muestreo para resolverlo. Los más comunes incluyen sobremuestreo aleatorio ingenuo, SMOTE y ADASYN (sobremuestreo integral adaptativo)

16. Procesamiento de datos del operador

Según la fecha de la llamada, el registro de la llamada se puede dividir en casi 7 días, el último medio mes, el pasado enero, los últimos tres meses, los últimos seis meses y otras ventanas de tiempo. También se puede dividir en días laborables, festivos, etc. en función de fechas concretas. Dependiendo de la hora de la llamada, el día se puede dividir en madrugada, mañana, tarde y noche. En cuanto a los números de teléfono, una idea es dividirlos en provincias y ciudades según su lugar de origen. Otra idea es etiquetar los números según las marcas de Phone State, Baidu Mobile Guard y Sogou Number Pass. comida para llevar express, llamadas de acoso, e instituciones financieras, intermediarios, etc. Incluso distingue si el número es un usuario en la lista negra, un solicitante o un usuario rechazado según la acumulación de negocios. Las llamadas del usuario con diferentes etiquetas numéricas pueden reflejar los hábitos de llamada y las características de vida del usuario

17. Regresión gradual

Cuando la relación entre variables independientes es más compleja, para las variables Cuando el comercio -off es difícil de entender, podemos usar el método de regresión por pasos para filtrar las variables. La idea básica de la regresión paso a paso es introducir variables en el modelo una por una. Cada vez que se introduce una variable, se realiza una prueba F y se realiza una prueba t en las variables seleccionadas cuando las variables introducidas originalmente ya no existen. Después de introducir las variables posteriores, las variables originales se eliminan.

Para garantizar que solo se incluyan variables significativas en la ecuación de regresión antes de introducir cada nueva variable

18. En la regresión logística, ¿por qué se realiza a menudo la combinación de características (cruce de características)?

Regresión lógica es un modelo lineal generalizado, y la combinación de características puede introducir características no lineales para mejorar la capacidad de expresión del modelo

Algunos artículos citados: /content/qita/775233 /article/jXwvkaB9t7mPWHxj9ymu /developer/article/1489429 / desarrollador/artículo/1059236 /taenggu0309/Scorecard--Función