Colección de citas famosas - Slogan de motivación - Cómo hacer análisis de datos en C++

Cómo hacer análisis de datos en C++

Cómo utilizar el filtro Bloom/Hash/bit-map/heap/database o índice invertido/árbol trie para el análisis de datos en C++.

El llamado procesamiento masivo de datos no es más que el almacenamiento, procesamiento y operación de datos masivos. Masivo significa que la cantidad de datos es demasiado grande, por lo que no se puede resolver rápidamente en un corto período de tiempo o los datos son demasiado grandes para cargarlos en la memoria de una vez.

Podemos utilizar algoritmos inteligentes con estructuras de datos apropiadas, como Bloomfilter/Hash/bit-map/heap/database o índice/árbol trie invertido.

Para el espacio, no hay más que un método: reducir lo grande a lo pequeño, dividir y conquistar (mapeo hash). ¿No dijiste que la escala es demasiado grande? de gran escala a pequeña escala, y derrotarlos uno por uno, ¿no se acabó?

En cuanto a los llamados problemas independientes y de clúster, en términos sencillos, una máquina independiente tiene un número limitado de máquinas que procesan datos cargados (solo considere la interacción de datos de la CPU, la memoria, y disco duro), mientras que un clúster tiene varias máquinas.

Adecuado para procesamiento distribuido y computación paralela (se da más consideración a los nodos y la interacción de datos entre nodos).

Además, a través de los artículos sobre procesamiento masivo de datos de este blog: Big Data Processing, ya tenemos una comprensión general del problema del procesamiento de datos masivos.

No es más que dividir y conquistar/mapeo hash + estadísticas hash + ordenación de montón/rápido/fusión; filtro Bloom de división de cubos de doble capa/árbol Trie/base de datos/índice invertido;

Hadoop/Mapreduce para procesamiento distribuido de clasificación externa.

La diferencia entre set/mahashtable/hash_map/hash_setset/map/multiset/multimaphash_set/hash_map/hash_multiset/hash_multimap.