Pase 14 Pandas 100 preguntas
Ver información de la versión de Pandas:
Estructura de datos de Pandas: Pandas incluye principalmente Series (matriz unidimensional), DataFrame (matriz bidimensional), Panel (tridimensional). matriz), estructuras de datos como Panel4D (matriz de cuatro dimensiones) y PanelND (matriz multidimensional). Series y DataFrame son los más utilizados.
Series es una matriz de etiquetas unidimensional que puede contener cualquier tipo de datos. Incluyendo números enteros, cadenas, números de punto flotante, objetos Python, etc. Las series se pueden localizar mediante etiquetas.
DataFrame es una estructura de datos etiquetada bidimensional. Podemos localizar datos a través de etiquetas. Esto es algo que NumPy no tiene.
En Pandas, una Serie se puede ver como un conjunto de datos que consta de 1 columna de datos.
Crear una sintaxis de serie: s = pd. series (datos, índice = índice), se pueden crear de varias maneras. Aquí hay tres métodos comunes.
Crear una serie a partir de una lista:
Crear una serie a partir de una matriz de n:
Crear una serie a partir de un diccionario:
Modificar el índice de la serie:
p>
Empalme vertical de la serie:
La serie elimina el elemento en el índice especificado:
La serie modifica el índice especificado elemento:
Búsquedas de series en el índice especificado Elemento:
Operación de corte de series:
Adición de series:
La operación de suma del La secuencia se calcula en función del índice. Si el índice es diferente, se rellena con NaN (valor vacío).
Resta de series:
La operación de resta de una secuencia se calcula en función de la correspondencia del índice. Si son diferentes, se rellenan con NaN (valor nulo).
Multiplicación de series:
La operación de multiplicación de la matriz se calcula en función de la correspondencia del índice. Si los índices son diferentes, se rellenan con NaN (valor nulo).
Operación de división de series:
La operación de división de la matriz se calcula en función de la correspondencia de índices. Si los índices son diferentes, se rellenan con NaN (valor nulo).
Encontrar la mediana de una secuencia
Sumar la serie:
Encontrar la serie con el valor máximo:
Encontrar la serie con el valor mínimo:
A diferencia de Sereis, DataFrame puede tener varias columnas de datos. En términos generales, DataFrame también se usa comúnmente.
Crear un marco de datos a partir de una matriz NumPy:
Crear un marco de datos a partir de una matriz de diccionario:
Verifique el tipo de datos del DataFrame:
Vista previa de los datos Las primeras cinco filas de datos en el marco:
Ver las últimas tres filas de datos en el marco de datos:
Ver el índice del marco de datos :
Ver los nombres de las columnas del DataFrame:
Ver los valores del data frame:
Ver las estadísticas del data frame: p>
Transponer el marco de datos:
Organizar los datos por columnas Ordenar marcos:
Dividir datos del marco de datos:
Consultar el marco de datos por etiqueta (columna única):
Consultar el marco de datos por etiqueta (varias columnas):
p>Consultar por la posición del marco de datos:
Copiar el marco de datos:
Determinar si el elemento DataFrame está vacío:
Agregar datos de columna:
Cambiar según el valor del subíndice del DataFrame.
:
Modificar datos según las etiquetas del marco de datos:
Operación de promedio del marco de datos:
Suma cualquier columna en el marco de datos:
Convertir cadena a minúsculas:
Convertir cadena a mayúsculas:
Completar los valores faltantes:
Eliminar filas con valores faltantes:
DataFrame alineado por columnas especificadas:
Escritura de archivo CSV:
Lectura de archivo CSV:
Operación de escritura en Excel:
Lectura de Excel operación:
Utilice cada día de 2018 como índice y utilice números aleatorios como valores para crear una secuencia:
El valor correspondiente de cada miércoles en estadísticas Suma de: p>
Promedio mensual en estadísticas:
Convertir series temporales (segundos a minutos):
Hora universal UTC estándar:
Conversión a zona horaria de Shanghai :
Conversión de diferentes expresiones de tiempo:
Creación de múltiples series de índice:
Utilice letras = ['A',' B', 'C'] y número = lista (rango (10)) como índice y número aleatorio para construir una secuencia de múltiples índices.
Consulta de series de índices múltiples:
División de series de índices múltiples:
Crear un marco de datos basado en índices múltiples:
Utilice la letra = ['A', 'B'] y números = list(range(6)) como datos aleatorios para que el índice cree un marco de datos de múltiples índices.
Nombres de columnas de configuración de índices múltiples:
Suma de grupo de índices múltiples de DataFrame:
Conversión de nombres de filas y columnas de DataFrame:
Marco de datos Conversión de índice:
Búsqueda condicional de marco de datos:
Encontrar toda la información con una antigüedad mayor a 3
* *Índice de división por fila y columna:* *< /p >
Consulta de múltiples condiciones del marco de datos:
Buscar edad
Consulta del marco de datos por palabra clave:
Consulta del marco de datos por etiqueta y nombre de columna . :
Clasificación de condiciones múltiples del marco de datos:
Ordenar en orden descendente por edad y orden ascendente de visitas.
Reemplazo de valores múltiples del marco de datos:
Reemplace el valor sí de la columna de prioridad con Verdadero y reemplace el valor no con Falso.
Suma de paquetes de marcos de datos:
Unir múltiples marcos de datos con listas:
Buscar la columna más pequeña en la tabla del marco de datos:
Restar la media de cada fila de cada elemento del marco de datos:
Agrupe el marco de datos y obtenga la suma de los tres números más grandes de cada grupo:
En el análisis, cuando se trata de datos enormes, Para explorar mejor la relación entre las características de los datos sin destruir los datos originales, podemos usar pivot_table para operar.
Crear una tabla dinámica:
La nueva tabla agrega las columnas A, B y C en un índice.
La tabla dinámica se agrega por filas especificadas:
Agrega la columna D del DataFrame y se agrega según los índices de las columnas A y b. El método de agregación es el promedio predeterminado.
Definición del método de agregación de la tabla dinámica:
En la pregunta anterior, al agregar la columna D, se utilizó el método de promedio predeterminado. Si desea utilizar más métodos, puede implementarlos en aggfunc.
Las tablas dinámicas utilizan columnas adicionales para la segmentación auxiliar;
Al agregar la columna D en función de las columnas A y B, si le preocupa el impacto de la columna C en la columna D, puede agregar valores de columna Realizar análisis.
Procesamiento de valores predeterminados para tablas dinámicas:
Debido a los diferentes métodos de agregación en las tablas dinámicas, las combinaciones faltantes correspondientes serán valores predeterminados y puede agregar fill_value para manejar los valores predeterminados.
En términos de forma de datos, incluye principalmente datos cuantitativos y datos cualitativos. Los datos cuantitativos indican que el rango contable de los datos es variable, mientras que los datos cualitativos indican que se ha determinado que el rango no se puede cambiar. Los datos absolutos son un tipo de datos cualitativos.
Definición de datos absolutos:
Cambiar el nombre de los datos absolutos:
Reorganizar los datos absolutos y agregar los valores predeterminados correspondientes:
Clasificación de datos absolutos:
Datos absolutos del grupo:
Ajuste de valor faltante:
Faltan valores en FilghtNumber, donde el valor se incrementa en 10 y se agrega el valor predeterminado correspondiente value para completar los datos y los datos son de tipo int.
División de columnas de datos:
Donde From_To deben ser dos columnas independientes From y To, y From_to se dividirá en dos columnas independientes según _ para crear una nueva tabla.
Estandarización de caracteres:
Los nombres de lugares no están estandarizados (por ejemplo, Londres debería ser Londres), por lo que es necesario estandarizar los datos.
Eliminar datos erróneos y agregar datos ordenados:
Eliminar la columna inicial Desde_hasta y agregar las columnas ordenadas Desde y hacia.
Eliminar caracteres redundantes:
Al igual que hay muchos otros caracteres en una gran cantidad de datos en la columna de la aerolínea, tendrá un gran impacto en el análisis de datos posterior. Se requiere corrección.
Especificaciones de formato:
El método de registro de retrasos recientes es en formato de lista. Debido a sus diferentes longitudes, causará grandes problemas en el análisis de datos posterior. Aquí, la lista retrasada más reciente se descompone y los elementos en la misma posición en la lista se eliminan como una columna. Si está vacío, reemplácelo con NaN.
División de intervalos de información:
Las puntuaciones en matemáticas de algunos estudiantes de la clase se muestran en la siguiente figura.
Pero lo que más nos preocupa es si el alumno aprobó el examen y si la puntuación de matemáticas alcanzó los 60 puntos.
Eliminación de datos duplicados:
Datos del DataFrame en la columna A, como se muestra en la siguiente figura.
Intente eliminar datos duplicados consecutivos en la columna A.
Estandarización de datos:
A veces, la brecha de datos entre diferentes columnas en el DataFrame es demasiado grande y necesita estandarización.
Entre ellos, la normalización máxima y mínima es un método simple y de uso común. La fórmula es la siguiente:
Visualización de series:
Gráfico de líneas de marco de datos<. /p >
Gráfico de dispersión del marco de datos
Gráfico de columnas del marco de datos