¿Qué es la minería de datos o cuál es el proceso de minería de datos?
El modelo CRISP-DM proporciona una descripción completa del proceso para el proyecto KDD. Este modelo divide un proyecto KDD en seis fases diferentes, pero el orden no es completamente constante.
Entendimiento empresarial: Entendimiento empresarial. En la primera fase, tenemos que entender las necesidades y objetivos finales del proyecto desde una perspectiva empresarial. e integrar estos propósitos con las definiciones y resultados de la minería de datos.
Comprensión de datos: comprensión y recopilación de datos, y evaluación de los datos disponibles.
Preparación de datos: Preparación de datos, una serie de organización y limpieza de datos sin procesar disponibles para cumplir con los requisitos de modelado.
Modelado: uso de herramientas de minería de datos para construir modelos.
Evaluación: Evaluar el modelo establecido, centrándose en si los resultados cumplen con el propósito de negocio del primer paso.
Implementación: Implementación, es decir, organización de hallazgos y procesos en texto legible (informes de minería de datos).
Desde un punto de vista práctico, el proceso de minería de datos es básicamente el mismo que el proceso estándar CRISP-DM y no es más que pasos repetidos.
Prefiero la descripción de la definición de minería de datos: La minería de datos es el proceso de descubrir e interpretar conocimiento (o patrones) a partir de datos utilizando conocimiento empresarial. El conocimiento empresarial es nuevo conocimiento creado en formas naturales o artificiales. . También se puede ver que la base de la minería de datos es comprender el negocio o encontrar personas que estén familiarizadas con el negocio y luego utilizar el conocimiento histórico para construir modelos de conocimiento y crear nuevo conocimiento.
Los límites del proceso no son obvios, pero existe un orden básico de dependencias. Por ejemplo, el análisis de viabilidad requiere evaluación de datos y los resultados de la optimización del modelo no son obvios, por lo que tenemos que volver a la etapa de análisis de datos y la preparación de datos debe depender de ETL.
Cada paso es fundamental. El paso anterior es la base para el siguiente paso, y el último paso depende de todos los pasos anteriores y puede retroceder a cualquier paso anterior dependiendo de la situación.