Cómo aprender Spark API

La API nunca se ha utilizado para aprender, es solo un diccionario y hay que buscarlo en todos los libros. Por ejemplo, si desea hacer esta parte de ML, simplemente explore el documento de MLlib, que tiene muchos ejemplos. Cuando determine qué clases se necesitan, verifique la API.

De hecho, el núcleo de Spark es RDD, siempre que sepa que todas las operaciones en RDD se ejecutarán en el clúster. El resto no es diferente de la programación normal. En cuanto a la API, si realmente desea aprenderla, simplemente escanee el directorio y vea qué clases hay; se profundizará a medida que la use.

Si aún no lo entiendes, puede deberse a las siguientes razones:

1. ¿Solo puedes escribir programas basados ​​en ejemplos o, como máximo, modificarlos? ¿No puedes escribirlo en absoluto sin ejemplos? ¿Sin ideas? Esta es una señal de malas habilidades de programación. Conozco la sintaxis básica y el marco Spark no es complicado, por lo que no hay ninguna razón por la que no pueda escribir algo. No necesariamente de alta gama, pero al menos algo bueno. Esto sólo puede deberse a unas habilidades de programación insuficientes. No existe una solución rápida para esto, sólo puedes practicar lentamente.

2. Scala no aprendió. Por supuesto, puedes usar Python, Java o R. Pero recomiendo aprender Scala. Si realmente aprendes Scala, será muy fácil comenzar con Spark. ¿Por qué? Debido a la llamada API, la parte RDD básicamente replica la API de Scala. La idea de programación de Spark es exactamente la misma que la de Scala. La diferencia es que Spark tiene un RDD, pero el método de RDD es básicamente el mismo que la estructura de colección de Scala. La forma de resolver este problema es aprender bien Scala. Se recomienda leer los tutoriales de Scala en la serie de libros sobre animales. Scala es un lenguaje complejo y difícil de aprender, pero si tienes una buena base en programación, no es demasiado difícil de aprender.

3. Falta de comprensión de los lenguajes funcionales. No necesitas saber Scala, Java, Python o incluso R para usar Spark. Es sólo que Scala sería más conveniente. Entonces, si no conoce Scala, necesita aprender las ideas de los lenguajes funcionales. ¿Por qué dices eso? Porque el funcionamiento de RDD es diferente del lenguaje imperativo. Por ejemplo, si tiene una lista y desea agregar uno a cada fila de elementos, entonces el enfoque imperativo es el bucle, mientras que el mapa funcional realizará esta tarea. Si desea marcar la diferencia en el campo del big data, es muy recomendable que aprenda lenguajes funcionales. Spark y Hadoop MapReduce son en realidad ideas funcionales.

4. No sé cómo aprender chispas. Si no tiene ninguno de los problemas anteriores, pero simplemente no ha encontrado un buen tutorial de Spark, le recomiendo leer el Tutorial de Spark de Animal Books. La serie de libros sobre animales es realmente una buena noticia para los programadores. ¿Qué lenguaje de programación quiero aprender ahora? Primero, busque libros sobre animales.