Análisis Estadístico con Python

Análisis Estadístico con Python

1. Planteamiento del Problema

Imaginemos que estamos interesados en entender las tendencias y patrones en las calificaciones de los estudiantes de un programa de maestría. Queremos investigar si existen diferencias significativas en el rendimiento académico entre diferentes especializaciones y también explorar la relación entre la asistencia a clases y las calificaciones.

2. Uso de Datos

Para este análisis, generaremos un conjunto de datos ficticio que contenga las siguientes columnas:

ID_Estudiante: Identificación única del estudiante.

Especialización: Área de especialización del estudiante (por ejemplo, Ciencias de la Computación, Ingeniería, Educación).

Calificación: Calificación promedio del estudiante.

Asistencia: Porcentaje de asistencia a clases.

Este dataset será creado utilizando la biblioteca Pandas en Python.

3. Desarrollo de Script Python

Primero, importamos las bibliotecas necesarias y generamos el dataset:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from scipy import stats

# Generación de datos ficticios

np.random.seed(0)

especializaciones = ['Ciencias de la Computación', 'Ingeniería', 'Educación']

datos = pd.DataFrame({

'ID_Estudiante': range(1, 101),

'Especialización': np.random.choice(especializaciones, 100),

'Calificación': np.random.normal(70, 10, 100), # calificaciones con media 70 y desv. estándar 10

'Asistencia': np.random.uniform(60, 100, 100) # asistencia entre 60% y 100%

})

4. Análisis Exploratorio de Datos (EDA)

Realizamos un análisis exploratorio para entender nuestros datos:

# Estadísticas básicas

print(datos.describe())

# Histogramas para las calificaciones y asistencia

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)

sns.histplot(datos['Calificación'], kde=True)

plt.title('Distribución de Calificaciones')

plt.subplot(1, 2, 2)

sns.histplot(datos['Asistencia'], kde=True)

plt.title('Distribución de Asistencia')

plt.show()

# Boxplot para comparar calificaciones por especialización

plt.figure(figsize=(8, 6))

sns.boxplot(x='Especialización', y='Calificación', data=datos)

plt.title('Calificaciones por Especialización')

plt.show()

RESULTADO

ID_Estudiante Calificación Asistencia

count 100.000000 100.000000 100.000000

mean 50.500000 69.425137 80.648767

std 29.011492 10.057839 11.060270

min 1.000000 45.562173 60.002214

25% 25.750000 63.905066 71.376389

50% 50.500000 69.642702 79.808169

75% 75.250000 77.287037 89.880622

max 100.000000 91.968910 99.401291

GRAFICOS

5. Interpretación de Resultados y Conclusiones

A partir de los histogramas y boxplots, podemos empezar a interpretar los datos. Por ejemplo, si observamos diferencias significativas en las calificaciones entre las especializaciones, podríamos investigar más a fondo las causas. Además, utilizando análisis de correlación (como el coeficiente de Pearson), podríamos explorar la relación entre asistencia y calificaciones.

Si encontramos, por ejemplo, que hay una correlación positiva significativa entre asistencia y calificaciones, podríamos concluir que fomentar la asistencia a clases podría ser una estrategia para mejorar el rendimiento académico.

Este análisis es un punto de partida y podría profundizarse con métodos estadísticos más avanzados, como la realización de pruebas de hipótesis para comparar medias entre grupos o análisis de regresión para entender mejor las relaciones entre variables.

Volver

Entrada destacada

Información General

Análisis Estadístico con Python

Sin comentarios