Análisis con Python uso Biblioteca Pandas
Análisis con Python uso Biblioteca Pandas.ipynb
Análisis con Python uso Biblioteca Pandas
El uso de Python con la biblioteca Pandas, que es esencial para el manejo
de datos. Pandas es una biblioteca que ofrece estructuras de datos y
herramientas de análisis de datos de alto rendimiento y fáciles de usar. Vamos
a ver cómo usarla con algunos ejemplos sencillos.
Paso 1: Instalación de Pandas
Primero, necesitas tener instalado Pandas. Si no lo tienes instalado,
puedes hacerlo mediante pip, que es el administrador de paquetes de Python. En
tu terminal o línea de comandos, escribe:
pip install pandas
Requirement already satisfied: pandas in
/usr/local/lib/python3.10/dist-packages (1.5.3)
Requirement already satisfied:
python-dateutil>=2.8.1 in /usr/local/lib/python3.10/dist-packages (from
pandas) (2.8.2)
Requirement already satisfied: pytz>=2020.1 in
/usr/local/lib/python3.10/dist-packages (from pandas) (2023.3.post1)
Requirement already satisfied: numpy>=1.21.0 in
/usr/local/lib/python3.10/dist-packages (from pandas) (1.23.5)
Requirement already satisfied: six>=1.5 in
/usr/local/lib/python3.10/dist-packages (from
python-dateutil>=2.8.1->pandas) (1.16.0)
Paso 2: Importar Pandas
Una vez instalado, debes importar Pandas en tu script de Python. Es común
importarlo con el alias pd para facilitar su uso posterior:
import pandas as pd
Paso 3: Crear un DataFrame
Pandas maneja principalmente dos estructuras de datos: Series y DataFrame.
Un DataFrame es como una tabla en Excel, con filas y columnas. Vamos a crear un
DataFrame simple:
data = {
'Nombres':
['Ana', 'Juan', 'Sofía'],
'Edades':
[23, 30, 27],
'Ciudad':
['La Paz', 'Cochabamba', 'Santa Cruz']
}
df = pd.DataFrame(data)
Paso 4: Explorar los Datos
Puedes ver las primeras filas de tu DataFrame con head():
print(df.head())
Nombres Edades
Ciudad
0
Ana 23 La Paz
1
Juan 30 Cochabamba
2
Sofía 27 Santa Cruz
Paso 5: Acceso a los Datos
Puedes acceder a una columna específica utilizando su nombre:
print(df['Nombres'])
0 Ana
1 Juan
2 Sofía
Name: Nombres, dtype: object
Paso 6: Filtrar Datos
Supongamos que quieres filtrar a todas las personas mayores de 25 años:
mayores_25 = df[df['Edades'] > 25]
print(mayores_25)
Nombres Edades Ciudad
1 Juan
30 Cochabamba
2 Sofía
27 Santa Cruz
Paso 7: Manipulación de Datos
Puedes agregar una nueva columna fácilmente. Por ejemplo, una columna que
indique si la persona es mayor de 30 años:
df['Mayor30']
= df['Edades'] > 30
print(df)
Nombres Edades Ciudad
Mayor30
0
Ana 23 La Paz
False
1
Juan 30 Cochabamba
False
2
Sofía 27 Santa Cruz
False
Paso 8: Lectura de Datos Externos
Pandas es muy útil para leer datos de archivos externos. Por ejemplo, para
leer un archivo CSV:
df_archivo = pd.read_csv('ruta_del_archivo.csv')
Ejemplo
df_archivo = pd.read_csv('/content/sample_data/california_housing_train.csv')
Paso 9: Análisis Básico
Pandas ofrece funciones para analizar tus datos rápidamente, como
describe() que proporciona estadísticas resumidas:
print(df.describe())
Edades
count
3.000000
mean
26.666667
std
3.511885
min
23.000000
25%
25.000000
50%
27.000000
75%
28.500000
max
30.000000
Paso 10: Guardar en Archivo
Finalmente, puedes guardar tu DataFrame en un archivo, como un archivo CSV:
df.to_csv('nombre_del_archivo.csv')
Estos son los pasos básicos para empezar con Pandas en Python. Hay muchas
más funcionalidades y técnicas avanzadas que puedes explorar a medida que te
familiarices con la biblioteca.