Colección de citas famosas - Colección de poesías - Jector de extracción del diccionario

Jector de extracción del diccionario

El objeto DataFrame de pandas es esencialmente una matriz bidimensional, que se diferencia de una matriz bidimensional normal en que la primera especifica el nombre de cada fila y columna. De esta manera, los datos internos se pueden extraer de dos maneras: nombres de columnas (correspondientes al método .loc[]) y subíndices de matrices (correspondientes al método .iloc[]).

Los siguientes detalles:

(Todos los siguientes procesos se realizan en el cuaderno Jupyter y se omite la función print() de algunas declaraciones).

Primero generar un objeto DataFrame:

Además de los parámetros de datos, el usuario también puede especificar dos parámetros: columna (nombre de columna) e índice (nombre de fila). Tenga en cuenta que el índice aquí no solo puede ser un número, sino también cualquier marco de datos especificado por el usuario, como una letra. Si no se especifica, de forma predeterminada los nombres de fila y columna son 0, 1 y 2.

La siguiente figura ilustra la situación anterior:

. loc [nombre de etiqueta de fila/[lista de nombres de etiquetas de fila], nombre de etiqueta de columna/[lista de nombres de etiquetas de columna]], es decir, hay dos parámetros de entrada, el primero especifica el nombre de la fila y el segundo especifica el nombre de la columna. Cuando solo hay un argumento, el valor predeterminado es el nombre de la fila (es decir, se extrae la fila completa) y se seleccionan todas las columnas.

. loc[posición de línea/[lista de posiciones de fila], posición de columna/[lista de posiciones de columna]] también tiene dos parámetros de entrada, el primero especifica la posición de la fila y el segundo especifica la posición de la columna. Cuando solo hay un argumento, el valor predeterminado es la posición de la fila (es decir, extraer la fila completa) y se seleccionan todas las columnas.

Como se mencionó anteriormente. loc【】y. iloc [] solo recibe 1 parámetro "idioma" o "0", por lo que, de forma predeterminada, ambos representan información de fila y se seleccionan todas las columnas, es decir, se extrae toda la fila de datos "idioma". ',' significa separar los dos parámetros (si hay dos parámetros), ':' aquí significa todas las columnas de la selección. Cuando solo hay un parámetro de entrada, Python tiene por defecto "," y ":", que se pueden escribir u omitir. Nota: Si solo hay un objeto en el parámetro [Idioma] o [0] (es decir, solo una línea), también se puede omitir [] Si hay varios objetos (es decir, varias líneas), debe agregar. []. Además, cabe señalar que agregar [] significa que el resultado extraído es un objeto DataFrame, ya sea un dato, una fila de datos o una columna de datos si no hay [], si es una fila o una; Se selecciona una columna de datos, es un objeto de serie, si es un solo dato, es el tipo de datos en sí.

La única diferencia entre el ejemplo 2 y el ejemplo 1 es que el primer parámetro especifica varias líneas que se generarán juntas. En este momento, el nombre o subíndice de cada línea debe estar entre []; de lo contrario, se producirá un error. Los siguientes "," y ":" son los mismos que en el Ejemplo 1 y se pueden omitir. Nota: El orden de las filas de los datos originales es: chino, matemáticas, inglés y política, el orden de extracción es ["inglés", "chino" y "política"] y el resultado también es "inglés", "chino" y "Política". Como puede verse, el orden de salida es consistente con el orden especificado por los parámetros, en lugar de la salida en el orden original.

El ejemplo 3 todavía acepta 1 parámetro, pero no hay ningún parámetro de columna. Los siguientes "," y ":" son los mismos que en el Ejemplo 1 y se pueden omitir. Los parámetros continuos especifican el rango de líneas en el formato "inicio:fin". Nota: No puede utilizar [ ] para encerrarlo; de lo contrario, se producirá un error. Además, cuando los nombres de filas y columnas se usan continuamente, como ['idioma:'política'], la fila donde se encuentra 'política' también se eliminará. Cuando se usan subíndices de matriz, 0:3 solo toma 3 filas. correspondiente a 0, 1 y 2. , la última fila no se recuperará; sin embargo, si el nombre de la etiqueta de la columna en sí es un número entero de 0, 1, 2... La última fila o columna no se recuperará al recuperar datos; utilizando nombres de etiquetas de columnas consecutivas en lugar de palabras u otros tipos.

El método de extracción de toda la columna es exactamente el mismo que el método de extracción de toda la fila en la configuración de parámetros. la columna predeterminada. loc【】y. iloc [] es el segundo parámetro, por lo que al extraer la columna completa, se debe utilizar ":" como "separador" para distinguir los parámetros de las filas anteriores; de lo contrario, se producirá un error.

La situación de extraer algunas filas y columnas al mismo tiempo es combinar los métodos anteriores para extraer filas y columnas respectivamente. Extraiga todo el objeto DataFrame. loc[:,:]o. iloc[:,:], aunque no tiene sentido hacerlo.

loc[,] y. (1) El método iloc [,] del objeto de marco de datos se utiliza para extraer datos. loc[,] toma nombres de etiquetas de filas y columnas como parámetros. iloc[,] toma como parámetro el subíndice de la cuadrícula del elemento de matriz bidimensional.

(2) Ambos métodos aceptan dos parámetros, el primero es la etiqueta de fila o el número de fila de la matriz, y el segundo es la etiqueta de la columna o el número de columna de la matriz.

(3) Cuando solo se especifica un parámetro de entrada en ambos métodos, ambos métodos están relacionados con "filas" y se seleccionan todas las "columnas". Cuando es necesario especificar filas y columnas, es importante separarlas con una "coma", de lo contrario se producirá un error.

(4) Cuando necesite seleccionar ciertas columnas de todas las filas, puede omitir los parámetros de la fila y especificar los parámetros de la columna. En este momento, los parámetros de la columna deben comenzar con ",:", como por ejemplo. loc[:, parámetros de columna] y. iloc[:, parámetros de columna].

(5) Si se configuran uno o dos parámetros de entrada. loc[,] y. iloc [,] depende de si hay "," para separar los dos parámetros, y debe distinguirse que la coma es la coma interna del parámetro y que se usa una coma para separar los parámetros en la columna.

(6) Respecto a la diferencia conceptual entre ambos parámetros. loc['idioma', 'matemáticas'] significa que se ingresan dos parámetros, el parámetro de fila es 'idioma' y el parámetro de columna es 'matemáticas'. Esto es incorrecto para la tabla anterior porque no hay ninguna columna llamada 'matemáticas'. que debería escribirse como [['lenguaje', matemáticas']]. [['Language', 'Math']] = [['Language', 'Math'], ] = [['Language', 'Math'],:], todos estos indican que solo hay un parámetro de fila, y se selecciona Todas las columnas.

上篇: ¿Qué significa el código de identificación escolar? 下篇: Artículos que debes memorizar para mejorar en Anhui Chinese Language College