Colección de citas famosas - Frases motivadoras - ¿Cuáles son las herramientas de análisis de datos de Python?

¿Cuáles son las herramientas de análisis de datos de Python?

IPython

Ipython es un shell de línea de comandos que se utiliza para la computación interactiva entre múltiples lenguajes de programación. Desarrollado originalmente en Python, proporciona introspección mejorada, medios enriquecidos y un shell extendido.

Gramática, finalización de tabulaciones, historial enriquecido y otras funciones. IPython proporciona las siguientes características:

Shell interactivo más potente (terminal basado en Qt)

Bloc de notas basado en navegador que admite código, texto sin formato, fórmulas matemáticas, gráficos integrados y otros elementos enriquecidos. medios de comunicación.

Admite visualización interactiva de datos y herramientas de interfaz gráfica

Flexible, puede integrarse en el intérprete y cargarse en cualquier proyecto propio.

Herramienta de computación paralela de alto rendimiento y fácil de usar.

Contribuido por Nir Kaldero, jefe de análisis de datos y experto en Galvanize.

GraphLab Greate es una biblioteca de Python compatible con el motor C++, que puede crear rápidamente productos de datos de alto rendimiento a gran escala.

Estas son algunas de las características de GraphLab Greate:

Se pueden analizar cantidades mensurables de datos en una computadora a velocidades interactivas.

Se pueden analizar datos tabulares, curvas, caracteres e imágenes en una única plataforma.

Los últimos algoritmos de aprendizaje automático incluyen aprendizaje profundo, árboles evolutivos y teoría de máquinas de factorización.

Puedes usar Hadoop Yarn o un clúster EC2 para ejecutar el mismo código en tu computadora portátil o sistema distribuido.

Céntrese en tareas o aprendizaje automático con funciones API flexibles.

Configure cómodamente productos de datos a través de servicios de predicción en la nube.

Crea datos visuales para exploración y seguimiento de productos.

Contribuido por el científico de datos Benjamin Skrainka.

Panda

Panda es un software de código abierto con licencia de código abierto BSD y es Python.

Los lenguajes de programación proporcionan estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Python tiene una larga reputación en la modificación y el preprocesamiento de datos, pero en términos de análisis y modelado de datos, Python

es un eslabón débil. El software Pands llena este vacío, permitiéndole procesar cómodamente todos sus datos en Python sin tener que elegir un lenguaje profesional más convencional, como R.

Integrado con el popular kit de herramientas IPython y otras bibliotecas, su entorno de desarrollo para análisis de datos usando Python tiene un rendimiento excelente en términos de rendimiento de procesamiento, velocidad, compatibilidad, etc. Pands

no realiza funciones de modelado importantes además de la regresión lineal y la regresión de panel; para estas, consulte la herramienta de modelado estadístico statsmodel y la biblioteca scikit-learn. Para poder llevar Python

Necesitamos trabajar más para construir un entorno de análisis y modelado estadístico de alto nivel, pero ya estamos luchando en este camino.

Contribuido por el experto en motivación y científico de datos Nir Kaldero.

Pulp

La programación lineal es una optimización que maximiza la función objetivo. Pulp es un programa escrito en Python.

Modelo de programación lineal escrito. Puede generar archivos lineales y llamar a solucionadores altamente optimizados, GLPK, CLP/CBC, CPLEX y GUROBI para resolver estos problemas lineales.

Contribuido por el científico de datos Isaac Laughlin.

Matplotlib

Matplotlib está basado en Python.

Biblioteca de trazado (datos) 2D que genera (resultados) diagramas con calidad de publicación para una variedad de formatos nativos de papel de impresión y entornos interactivos multiplataforma. Matplotlib se puede utilizar en scripts de Python,

interfaces de shell de Python e ipython (¿ala MATLAB? ¿O Mathematica?), servidores de aplicaciones web y 6 tipos de GUI.

Caja de herramientas.

Matplotlib intenta hacer las cosas simples más fáciles y las difíciles posibles. Sólo necesitas unas pocas líneas de código para generar gráficos, histogramas, espectros de energía (espectro de potencia), histogramas, diagramas de error, diagramas de dispersión, etc.

Para simplificar el trazado de datos, pyplot proporciona una interfaz similar a MATLAB, especialmente para usar con IPython.

* * *Cuando se usan juntos. Para usuarios avanzados, los estilos de línea, las propiedades de fuente, las propiedades de coordenadas y más se pueden personalizar completamente. , con la ayuda de interfaces orientadas a objetos o interfaces similares proporcionadas por los usuarios de MATLAB.

Contribuido por: Mike Tamir, director científico de Galvanizing Company.

sci kit-Learn

Scikit-Learn es una herramienta de análisis y extracción de datos (biblioteca) sencilla y eficaz. En particular, está disponible para todos y se reutiliza en muchos contextos. Está basado en

NumPy, SciPy y mathplotlib. Scikit utiliza la licencia BSD de código abierto y también se puede utilizar comercialmente. sci kit-learning

Tiene las siguientes características:

Clasificación: determina a qué categoría pertenece un objeto.

Regresión: atributo de valor continuo asociado con un objeto de predicción.

Clustering – agrupación automática de objetos similares.

Reducción de dimensionalidad: reducir el número de variables aleatorias que deben considerarse.

Selección de modelo: compare, valide y seleccione parámetros y modelos.

Preprocesamiento: extracción y normalización de características.

Instructor de Ciencia de Datos proporcionado por Isaac Laughlin.

Spark

Spark consta de un controlador que ejecuta la función principal del usuario, realizando múltiples operaciones paralelas en el clúster. Lo más atractivo de Spark es que proporciona un conjunto de datos distribuido resiliente (RDD), que es una colección de elementos divididos por nodos del clúster, que se puede utilizar para computación paralela. rdd se puede descargar desde Hadoop.

Archivos en el sistema de archivos (u otros sistemas de archivos compatibles con Hadoop), u otros conjuntos de datos escalares existentes en el controlador, y transformarlos. Es posible que los usuarios quieran Spark.

Mantenga los RDD permanentemente en la memoria para una reutilización eficiente de los RDD a través de operaciones paralelas. Finalmente, el rdd no logra recuperarse automáticamente del nodo.

El segundo aspecto atractivo de Spark es el disfrute de las variables en * * * operaciones paralelas. De forma predeterminada, cuando Spark

cuando una función se ejecuta en paralelo en diferentes nodos como un conjunto de tareas, envía una copia de las variables utilizadas en cada función a cada tarea. A veces, es necesario que muchas tareas y controladores compartan una variable. Spark

Admite dos tipos de * * * variables compartidas: variables de transmisión, que se pueden usar para almacenar en caché datos en todos los nodos. Otra forma es el acumulador, que es una variable que solo se puede utilizar para realizar sumas, como en contadores y operaciones de suma.