Colección de citas famosas - Colección de máximas - ¿Qué es la minería de datos o cuál es el proceso de minería de datos?

¿Qué es la minería de datos o cuál es el proceso de minería de datos?

Crisp-DM (Proceso estándar de minería de datos entre industrias) significa "Proceso estándar de minería de datos entre industrias".

El modelo CRISP-DM proporciona una descripción completa del proceso para el proyecto KDD. Este modelo divide un proyecto KDD en seis fases diferentes, pero el orden no es completamente constante.

Entendimiento empresarial: Entendimiento empresarial. En la primera fase, tenemos que entender las necesidades y objetivos finales del proyecto desde una perspectiva empresarial. e integrar estos propósitos con las definiciones y resultados de la minería de datos.

Comprensión de datos: comprensión y recopilación de datos, y evaluación de los datos disponibles.

Preparación de datos: Preparación de datos, una serie de organización y limpieza de datos sin procesar disponibles para cumplir con los requisitos de modelado.

Modelado: uso de herramientas de minería de datos para construir modelos.

Evaluación: Evaluar el modelo establecido, centrándose en si los resultados cumplen con el propósito de negocio del primer paso.

Implementación: Implementación, es decir, organización de hallazgos y procesos en texto legible (informes de minería de datos).

Desde un punto de vista práctico, el proceso de minería de datos es básicamente el mismo que el proceso estándar CRISP-DM y no es más que pasos repetidos.

Prefiero la descripción de la definición de minería de datos: La minería de datos es el proceso de descubrir e interpretar conocimiento (o patrones) a partir de datos utilizando conocimiento empresarial. El conocimiento empresarial es nuevo conocimiento creado en formas naturales o artificiales. . También se puede ver que la base de la minería de datos es comprender el negocio o encontrar personas que estén familiarizadas con el negocio y luego utilizar el conocimiento histórico para construir modelos de conocimiento y crear nuevo conocimiento.

Los límites del proceso no son obvios, pero existe un orden básico de dependencias. Por ejemplo, el análisis de viabilidad requiere evaluación de datos y los resultados de la optimización del modelo no son obvios, por lo que tenemos que volver a la etapa de análisis de datos y la preparación de datos debe depender de ETL.

Cada paso es fundamental. El paso anterior es la base para el siguiente paso, y el último paso depende de todos los pasos anteriores y puede retroceder a cualquier paso anterior dependiendo de la situación.