Colección de citas famosas - Frases motivadoras - ¿Cuál es la definición de minería de datos?

¿Cuál es la definición de minería de datos?

La minería de datos se refiere al proceso automatizado de clasificar grandes conjuntos de datos para identificar tendencias y patrones a través del análisis de datos y establecer relaciones para resolver problemas comerciales. En otras palabras, la minería de datos es el proceso de extraer de grandes cantidades de datos incompletos, ruidosos, borrosos y aleatorios información y conocimiento que está implícito en ellos y que la gente no conoce de antemano, pero que es potencialmente útil.

En principio, la minería de datos se puede aplicar a cualquier tipo de repositorio de información y datos transitorios (como flujos de datos), como bases de datos, almacenes de datos, data marts, bases de datos de transacciones, bases de datos espaciales (como mapas ) etc.), datos de diseño de ingeniería (como diseño arquitectónico, etc.), datos multimedia (texto, imagen, video, audio), red, flujo de datos, base de datos de series temporales, etc. Debido a esto, la minería de datos tiene las siguientes características:

(1) El conjunto de datos es grande e incompleto

El conjunto de datos requerido para la minería de datos es muy grande. Cuanto más grande, mejor. Las leyes obtenidas pueden acercarse más a las leyes reales correctas y los resultados serán más precisos. De lo contrario, los datos suelen estar incompletos.

(2) Inexactitud

La minería de datos tiene imprecisiones, que son causadas principalmente por datos ruidosos. Por ejemplo, en los negocios, los usuarios pueden proporcionar datos falsos; en un entorno de fábrica, los datos normales a menudo reciben interferencias electromagnéticas o de radiación y exceden el valor normal. Estos datos anormales que es absolutamente imposible que aparezcan se denominan ruido y provocarán imprecisiones en la extracción de datos.

(3) Confusa y aleatoria

La minería de datos es confusa y aleatoria. La ambigüedad aquí puede estar asociada con la inexactitud. Debido a datos inexactos, solo es posible observar los datos en su conjunto, o debido a la información privada involucrada, es imposible obtener algún contenido específico. Si desea realizar operaciones de análisis relevantes en este momento, solo puede hacerlo. En general, algunos análisis no pueden juzgarse con precisión.

Hay dos explicaciones para la aleatoriedad de los datos. Una es que los datos obtenidos son aleatorios; La segunda es que los resultados del análisis son aleatorios. Si los datos se entregan a la máquina para que los juzgue y aprenda, entonces todas las operaciones son operaciones de caja gris.

Acerca de PICO Data, crear valor de datos con corazón y facilitar el análisis de datos