Colección de citas famosas - Consulta de diccionarios - 10 habilidades de análisis de datos en Python.

10 habilidades de análisis de datos en Python.

Algunos consejos y trucos pueden resultar de gran ayuda, especialmente en el campo de la programación. A veces, utilizar un poco de habilidades de piratería no sólo puede ahorrar tiempo, sino también salvar "vidas".

Un pequeño atajo o complemento a veces es una bendición y puede suponer un verdadero impulso a la productividad. Así que aquí tienes algunos pequeños consejos y trucos, algunos de los cuales pueden ser nuevos, pero creo que te resultarán muy útiles para tus próximos proyectos de análisis de datos.

Proceso de creación de perfiles de los datos del marco de datos de Panda

La creación de perfiles (analizador) es un proceso que nos ayuda a comprender los datos. Pandas Profiling es un paquete de Python que puede analizar fácil y rápidamente los marcos de datos de Pandora. Realizar análisis de datos exploratorios sobre los datos.

Las funciones df.describe() y df.info() en Panda pueden implementar el primer paso del proceso EDA. Sin embargo, sólo proporcionan una descripción general muy básica de los datos y no son muy útiles para conjuntos de datos grandes. La función de creación de perfiles de Pandas puede mostrar grandes cantidades de información simplemente con una sola línea de código, también en informes HTML interactivos.

Para un conjunto de datos determinado, el paquete de análisis de Pandas calcula las siguientes estadísticas:

Las estadísticas calculadas por el paquete Pandas Profiling incluyen histogramas, modas, coeficientes de correlación y puntuaciones. , estadísticas descriptivas, otros tipos de información, valores univariados, valores faltantes, etc.

Corregido

Instalar con pip o conda

pip install panda-profiling

conda install-c python panda-profiling

p>

Uso

El siguiente código utiliza el conjunto de datos del Titanic de hace mucho tiempo para demostrar los resultados del analizador multifuncional de Python.

#Importar paquetes necesarios

Importar panda como pd

Importar panda_introduction

df = pd.read_csv('Titanic No./train .csv ')

panda_profile. Informe de esquema

Una sola línea de código puede mostrar un informe de análisis de datos completo en un cuaderno Jupyter, que es muy detallado y contiene la información gráfica necesaria.

También puede utilizar el siguiente código para exportar el informe a un archivo HTML interactivo.

Introducción=Panda_Introducción. Informe de perfil

perfil. a _ archivo(archivo de salida = "Titanic data profiling. html")

Panda implementa dibujo interactivo

Panda tiene incorporado. La función plot() está disponible como parte de la clase DataFrame. Sin embargo, la visualización presentada mediante esta función no es interactiva, lo que la hace menos atractiva. Lo mismo ocurre con los pandas. marco de datos. La función plot() no se puede utilizar para dibujar gráficos de forma interactiva. ¿Qué pasa si necesitamos dibujar un diagrama de interacción con pandas sin realizar cambios importantes en el código? En este momento, puedes utilizar la biblioteca de gemelos para lograrlo.

La biblioteca de gemelos puede combinar la poderosa trama con el panda flexible, lo cual es muy conveniente para dibujar. Veamos cómo instalar y usar la biblioteca de gemelos en Panda.

Plano de instalación de pip fijo

# Plotly es un requisito previo para instalar gemelos

instalación de pip de gemelos

Usar

#import panda

importar panda como pd

#Importar trama y gemelos en modo fuera de línea

importar puños Deducir como cf

Importar plotly.offline

cf.go_offline()

cf .set_config_file(offline=False,world_readable=True)

Es Es hora de mostrar la magia del conjunto de datos del Titanic.

df.iplot()

df.iplot() y df.plot()

La visualización de la derecha muestra una imagen estática, mientras que la imagen a la izquierda es interactivo, más detallado y todo sin cambios significativos en la sintaxis.

Comando mágico

El comando mágico es un conjunto de funciones convenientes en los portátiles Jupyter diseñados para resolver algunos problemas comunes en el análisis de datos estándar. Utilice el comando % %lsmagic para ver todos los comandos disponibles.

Lista de todos los comandos mágicos disponibles

Hay dos tipos de comandos mágicos: comando mágico de línea, con el prefijo de un solo carácter %, operaciones de entrada en una sola línea Magia de celda, con el prefijo; con doble %% Los caracteres se pueden ingresar en varias líneas. Si se establece en 1, se puede llamar a la función mágica sin ingresar %.

A continuación, observe algunos comandos que podría utilizar en tareas comunes de análisis de datos:

% pastebin

% Pastebin carga código en Pastebin y devuelve una URL. Pastebin es un servicio de alojamiento de contenido en línea que puede almacenar texto sin formato, como fragmentos de código fuente, y luego compartirlo con otros a través de URL. De hecho, Github gist es similar a Pastebin, pero con control de versiones.

Escribe un script en Python con el siguiente contenido en file.py e intenta ejecutarlo para ver los resultados.

#file.py

def foo(x):

Devolver x

Utilice % Pastebin para generar un Pastebin en Jupyter Notebook URL.

%matplotlib notebook

Esta función se utiliza para mostrar figuras matplotlib estáticas en el cuaderno Jupyter. Reemplazar en línea con cuadernos facilita la obtención de dibujos escalables y redimensionables. Pero recuerde que esta función debe llamarse antes de importar la biblioteca matplotlib.

%run

Intenta utilizar la función %run% para ejecutar un script de Python en un cuaderno.

%run file.py

%%writefile

%% writefile escribe el contenido de la celda en el archivo. El siguiente código escribe un script en un archivo llamado foo.py y lo guarda en el directorio actual.

% %LaTeX

La función %%LaTeX representa el contenido de la celda como LaTeX. Esta función es útil para escribir fórmulas y ecuaciones matemáticas en celdas.

Buscar y resolver errores

El depurador interactivo también es una característica sorprendente que he definido como una categoría separada. Si se produce una excepción al ejecutar la unidad de código, escriba % %debug en una nueva línea y ejecútela. Esto abrirá un entorno de depuración interactivo que le permitirá localizar directamente la ubicación donde ocurrió la excepción. También puedes consultar los valores de las variables asignadas en el programa y realizar acciones allí. Salga del depurador y haga clic en q.

También existen trucos para imprimir.

Si desea generar hermosas estructuras de datos, pprint es su primera opción. Es especialmente útil al imprimir datos de diccionario o datos JSON. Veamos un ejemplo de visualización de resultados usando print y pprint.

Haz que tus notas destaquen.

Podemos utilizar cuadros de alerta/cuadros de comentarios en su cuaderno de Jupyter para resaltar contenido importante u otro contenido que deba resaltarse. El color de la anotación depende del tipo de alerta especificado. Simplemente agregue cualquiera o todos los siguientes códigos en las celdas que desea resaltar.

Cuadro de advertencia azul: mensaje de información

& ltp class=" alerta alerta-bloqueo alerta-info " >>p>

& ltb & gt mensaje:& lt / b & gt; Utilice cuadros azules (mensajes rápidos) para mostrar sugerencias y comentarios.

Si se trata de una nota, no es necesario incluir la palabra “nota”.

& lt/p>

Cuadro de advertencia amarillo: advertencia

& ltp class= "Alerta Alerta-Bloquear Alerta-Advertencia" >>p >

<b>Ejemplo:</b>El cuadro amarillo generalmente se usa para contener ejemplos adicionales o fórmulas matemáticas.

& lt/p & gt;

Cuadro de advertencia verde: Éxito

& ltp class= "Alerta temprana-Advertencia de bloqueo-Éxito" >>p >

Utilice cuadros verdes sólo cuando sea necesario, como para mostrar enlaces a contenido relacionado.

& lt/p & gt;

Cuadro rojo de advertencia: riesgo alto

& ltp class=" alerta alerta-bloqueo alerta-peligro " >> p>

Es bueno evitar los cuadros rojos, pero puede usarse para recordar a los usuarios que no eliminen algunas partes importantes del código.

</p>

Imprime la salida de todos los códigos en la celda.

Supongamos que Jupyter Notebook tiene una celda que contiene las siguientes líneas de código:

En [1]: 15

11+6

Salida [1]: 17

La propiedad normal de una celda es imprimir solo la última salida. Para otras salidas, necesitamos agregar la función print(). Sin embargo, puede imprimir todo el resultado a la vez agregando el siguiente fragmento de código en la parte superior del cuaderno.

Después de agregar el código, todos los resultados de salida se imprimirán uno por uno.

En [1]: 15

11+6

12+7

Fuera [1]: 15 p>

Salida [1]: 17

Salida [1]: 19

Restaurar configuración original:

shell interactivo ast_node. _ interactividad = " last _ expr "

Ejecute el script de Python usando la opción "I".

La forma típica de ejecutar un script de Python desde la línea de comandos es: pythonhello.py. Sin embargo, agregar -i al ejecutar el mismo script, como python -i hello.py, puede proporcionar más ventajas. Veamos cómo resulta.

En primer lugar, Python no saldrá del intérprete incluso si el programa finaliza. Por tanto, podemos comprobar la exactitud de los valores de las variables y funciones definidas en el programa.

En segundo lugar, podemos invocar fácilmente el depurador de Python porque todavía estamos en el intérprete:

Importar pdb

pdb.pm()

p >

Esto puede localizar dónde ocurrió la excepción y luego podemos manejar el código de excepción.

Comentar código automáticamente

ctrl/Cmd+/ comenta automáticamente las líneas seleccionadas en las celdas. Al hacer clic en esta combinación nuevamente, se descomentará la misma línea de código.

Es fácil de eliminar pero difícil de restaurar.

¿Alguna vez has eliminado accidentalmente una celda de tu Jupyter Notebook? Si la respuesta es sí, entonces puedes dominar este atajo para deshacer la operación de eliminación.

Si eliminas el contenido de una celda, puedes restaurarlo fácilmente presionando CTRL/cmd+Z.

Si necesita restaurar todas las celdas eliminadas, presione ESC+Z o EDITAR & gt para deshacer la eliminación de la celda.

Conclusión

En este artículo, he enumerado algunos consejos que recopilé mientras trabajaba con cuadernos de Python y Jupyter. ¡Creo que te serán útiles y te harán ganar algo, para que puedas codificar fácilmente!