Los Spark rdds se pueden crear de diversas formas.
1. Transformación
La transformación se utiliza para crear RDD. RDD solo se puede crear mediante transformación y también proporciona una gran cantidad de métodos de operación, incluidos map, filter, groupBy, join, etc. RDD utiliza estas operaciones para generar un nuevo RDD, pero cabe señalar que no importa cuántas transformaciones se realicen, es imposible ejecutar el RDD hasta que calcule los datos reales.
2. Acción
La acción es la parte de ejecución de datos, que en realidad ejecuta la parte de cálculo de los datos mediante la ejecución de contar, reducir, recopilar y otros métodos. De hecho, todas las operaciones en los RDD se realizan en modo diferido. Cuando se ejecuta en compilación, el resultado final no se calcula inmediatamente, pero se recuerdan todos los pasos y métodos operativos y solo se ejecutan los comandos de inicio mostrados. La ventaja de esto es que la mayor parte del trabajo inicial ya se ha realizado durante la transformación, y cuando Action entra en juego, solo necesita utilizar toda la libertad para completar el trabajo central del negocio.