Colección de citas famosas - Colección de firmas - ¿Cuáles son los lenguajes de programación más utilizados para el desarrollo de big data?

¿Cuáles son los lenguajes de programación más utilizados para el desarrollo de big data?

1. Lenguaje Python

Si sus científicos de datos no usan R, probablemente conozcan Python a la perfección. Python ha sido muy popular en el mundo académico durante más de una década, especialmente en campos como el procesamiento del lenguaje natural (PNL). Entonces, si tiene un proyecto que requiere procesamiento de PNL, se enfrentará a una elección vertiginosa, incluido el NTLK clásico, el modelado de temas usando GenSim o el spaCy súper rápido y preciso. Del mismo modo, Python se siente igualmente cómodo cuando se trata de redes neuronales, incluidas Theano y Tensorflow; luego está scikit-learn para el aprendizaje automático y NumPy y Pandas para el análisis de datos.

También existe Juypter/Ipython, un marco de servidor portátil basado en web que le permite mezclar código, gráficos y casi cualquier objeto en su formato de registro favorito. Esta siempre ha sido una de las características principales de Python, pero este año, el concepto ha demostrado ser tan útil que aparece en casi todos los lenguajes que siguen el concepto de bucle de lectura y lectura (REPL), incluidos Scala y r.

Python suele ser compatible con marcos para el procesamiento de big data, pero al mismo tiempo, no suele ser un "ciudadano de primera clase". Por ejemplo, las nuevas funciones en Spark casi siempre aparecen encima de los enlaces de Scala/Java, y puede ser necesario escribir varias versiones menores para esas versiones más nuevas en PySpark (especialmente para las herramientas de desarrollo de transmisión de Spark/MLLib).

A diferencia de R, Python es un lenguaje tradicional orientado a objetos, por lo que la mayoría de los desarrolladores se sentirán bastante cómodos usándolo, mientras que la primera exposición a R o Scala puede resultar intimidante. Un pequeño problema es que es necesario dejar espacios en blanco adecuados en el código. Esto divide a la gente en dos bandos. Un grupo piensa "esto es excelente para garantizar la legibilidad", y el otro grupo piensa que no deberíamos obligar al intérprete a dejar ejecutar un programa solo porque un carácter en una línea de código no está en el lugar correcto.

Lenguaje 2.r

En los últimos años, el lenguaje R se ha convertido en el favorito de la ciencia de datos: la ciencia de datos ahora es conocida no sólo por los ratones de biblioteca estadísticos, sino también por Wall Street. Bien conocido por comerciantes, biólogos y desarrolladores de Silicon Valley. Empresas de diversas industrias, como Google, Facebook, Bank of America y el New York Times, utilizan el lenguaje R, y el lenguaje R se promueve constantemente en las aplicaciones comerciales.

rEl lenguaje tiene un atractivo simple pero obvio. Con R, puede filtrar conjuntos de datos complejos, procesar los datos mediante funciones de modelado avanzadas y crear gráficos planos para representar números con solo unas pocas líneas de código. Se ha comparado con una versión extremadamente activa de Excel.

El mayor activo del lenguaje R es el ecosistema dinámico desarrollado a su alrededor: la comunidad del lenguaje R agrega constantemente nuevos paquetes y características a su ya rico conjunto de características. Se estima que más de 2 millones de personas usan R, y una encuesta reciente reveló que R es, con mucho, el lenguaje más popular para datos científicos, con 665,438+0% de los encuestados usando R (seguido de Python, 39%).

3. JAVA

La gente ha descubierto que Java y los frameworks basados ​​en Java son el esqueleto de la empresa de alta tecnología más grande de Silicon Valley. "Si nos fijamos en Twitter, LinkedIn y Facebook, Java es el lenguaje base para toda su infraestructura de ingeniería de datos", dijo Driscoll.

Java no proporciona la misma calidad de visualización que Python y no es la mejor opción para el modelado estadístico. Sin embargo, si está dejando atrás la creación de prototipos y necesita construir un sistema grande, Java suele ser su mejor opción.

4.Hadoop y Hive

Para satisfacer la enorme demanda de procesamiento de datos, se ha desarrollado un conjunto de herramientas basadas en Java. Hadoop ha encendido el entusiasmo de todos como el marco preferido basado en Java para el procesamiento de datos por lotes. Hadoop es más lento que otras herramientas de procesamiento, pero es increíblemente preciso y, por lo tanto, se usa ampliamente para el análisis backend. Funciona bien con Hive, un marco basado en consultas que se ejecuta en la parte superior.