¿Qué es la minería de datos? Describa brevemente sus funciones y aplicaciones.
La minería de datos es el método no estándar para obtener patrones efectivos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de grandes cantidades de datos almacenados en bases de datos, almacenes de datos u otros procesos ordinarios. 1) La minería de datos puede hacer las siguientes siete cosas diferentes (métodos de análisis): Minería de datos · Clasificación · Estimación · Predicción · Reglas de asociación o agrupación de afinidad (reglas de asociación o agrupación de afinidad) · Agregación (agrupación) · Descripción y visualización · Tipo de datos complejos minería (texto, web, gráficos, imágenes, videos, audio, etc.) 2) Clasificación de minería de datos Los siete métodos de análisis de minería de datos anteriores se pueden dividir en dos categorías: Minería directa de datos Minería indirecta de datos · El objetivo de la minería directa de datos; Es utilizar los datos disponibles para construir un modelo que describa los datos restantes y una variable específica (que puede entenderse como un atributo de una tabla en la base de datos, es decir, una columna). · Minería de datos indirecta: el objetivo no selecciona una variable específica y la describe con un modelo, sino que establece una determinada relación entre todas las variables; · La clasificación, valoración y predicción pertenecen a la minería de datos directa; los tres últimos pertenecen a la minería de datos indirecta 3) Introducción a varios métodos de análisis · Clasificación (Clasificación) Primero seleccione un conjunto de entrenamiento que haya sido clasificado en categorías a partir de los datos. Tecnología de clasificación minera para establecer un modelo de clasificación para clasificar datos no clasificados. Ejemplo: a. Solicitantes de tarjetas de crédito, clasificados como de riesgo bajo, medio y alto b. Diagnóstico de fallas: China Baosteel Group coopera con Shanghai Tianlu Information Technology Co., Ltd. para utilizar tecnología de extracción de datos para monitorear y analizar la calidad de todo el acero. proceso de producción Construya un mapa de fallas y analice las causas de los defectos del producto en tiempo real, mejorando efectivamente la tasa de calidad del producto. Nota: El número de clases está determinado y predefinido. Estimación La estimación es similar a la clasificación. La diferencia es que la clasificación describe la salida de variables discretas, mientras que la estimación procesa la salida de valores continuos. La cantidad de categorías en la minería de datos de clasificación es cierta; pero el monto de la estimación es incierto. Ejemplos: a. Estimar el número de hijos de una familia según los patrones de compra b. Estimar los ingresos de una familia según los patrones de compra c. Estimar el valor de los bienes inmuebles En términos generales, la valoración se puede utilizar como paso preliminar en la clasificación. Dados algunos datos de entrada, el valor de la variable continua desconocida se obtiene mediante estimación y luego se clasifica según el umbral preestablecido. Por ejemplo: los bancos utilizan la valoración para el negocio de préstamos hipotecarios y asignan puntuaciones (puntuación 0 ~ 1) a cada cliente. Luego, según los umbrales, se clasifican las clases de préstamos. · Predicción Por lo general, la predicción funciona mediante clasificación o valoración, es decir, un modelo se deriva mediante clasificación o valoración, y el modelo se utiliza para predecir variables desconocidas. En este sentido, la profecía realmente no necesita clasificarse en una categoría separada. El propósito de la predicción es predecir variables desconocidas en el futuro. Este tipo de predicción requiere tiempo para verificarse, es decir, debe tomar un cierto período de tiempo para conocer la precisión de la predicción. Ejemplo: Hainan Airlines introdujo la herramienta líder de extracción de datos Markway Analysis System para analizar las tendencias cambiantes en el flujo de pasajeros, combustible, etc., realizar extracción de datos sobre el tema de los ingresos por rutas y formular estrategias de ventas sofisticadas, que efectivamente aumentaron los ingresos corporativos. · Las reglas de agrupación o asociación por afinidad determinan qué cosas sucederán juntas. Ejemplo: a. Cuando los clientes en el supermercado compran A, a menudo compran B al mismo tiempo, es decir, A => B (reglas de asociación después de comprar A, los clientes comprarán B después de un período de tiempo); análisis); agrupación) La agregación consiste en agrupar registros y colocar registros similares en una colección. La diferencia entre agregación y clasificación es que la agregación no depende de clases predefinidas y no requiere un conjunto de entrenamiento.
Ejemplos: a. La agregación de algunos síntomas específicos puede indicar una enfermedad específica; b. La agregación de clientes que alquilan VCD con tipos diferentes puede implicar que los miembros pertenecen a diferentes grupos de subculturas. La agregación se utiliza a menudo como el primer paso en la extracción de datos. Por ejemplo, "¿Qué tipo de promoción responde mejor a los clientes?" Para este tipo de preguntas, primero agregue a todo el cliente, agrupe a los clientes en sus respectivos grupos y luego responda la pregunta para cada grupo diferente, posiblemente el efecto sea mejor. c China Mobile utiliza la herramienta avanzada de extracción de datos Markway Analysis System para realizar análisis de grupos sobre el comportamiento de Internet WAP de los usuarios y realizar marketing preciso a través de agrupaciones de clientes. · Descripción y Visualización (Description and Visualization) Fuente: Foro Netjie.com Es una forma de expresar los resultados de la minería de datos.