Colección de citas famosas - Diccionario de frases chinas - Los Spark rdds se pueden crear de diversas formas.

Los Spark rdds se pueden crear de diversas formas.

Las chispas giran en torno a la idea de RDD. Un RDD es un conjunto de elementos tolerantes a fallos que pueden funcionar en paralelo. Hay dos formas de crear un RDD: paralelizar una colección existente en el controlador o hacer referencia al conjunto de datos desde un sistema de almacenamiento externo. Una de las características de RDD es el almacenamiento distribuido. La mayor ventaja del almacenamiento distribuido es que los datos se pueden almacenar en diferentes nodos trabajadores en paralelo para que puedan operarse en paralelo cuando sea necesario. La elasticidad significa que puede utilizar tanto la memoria interna como la externa al almacenar nodos, lo que proporciona comodidad a los usuarios para procesar big data. Además, otra característica de RDD es el cálculo diferido, es decir, una tarea completa en ejecución de RDD se divide en dos partes: transformación y acción.

1. Transformación

La transformación se utiliza para crear RDD. RDD solo se puede crear mediante transformación y también proporciona una gran cantidad de métodos de operación, incluidos map, filter, groupBy, join, etc. RDD utiliza estas operaciones para generar un nuevo RDD, pero cabe señalar que no importa cuántas transformaciones se realicen, es imposible ejecutar el RDD hasta que calcule los datos reales.

2. Acción

La acción es la parte de ejecución de datos, que en realidad ejecuta la parte de cálculo de los datos mediante la ejecución de contar, reducir, recopilar y otros métodos. De hecho, todas las operaciones en los RDD se realizan en modo diferido. Cuando se ejecuta en compilación, el resultado final no se calcula inmediatamente, pero se recuerdan todos los pasos y métodos operativos y solo se ejecutan los comandos de inicio mostrados. La ventaja de esto es que la mayor parte del trabajo inicial ya se ha realizado durante la transformación, y cuando Action entra en juego, solo necesita utilizar toda la libertad para completar el trabajo central del negocio.