Introducción a los “datasets”, con un ejemplo sobre educación superior
Introducción a los datasets.ipynb
Introducción a los
“datasets”, con un ejemplo sobre educación superior
1. Planteamiento del
Problema
Problema: ¿Cómo influye
el acceso a recursos educativos digitales en el rendimiento académico de los
estudiantes de educación superior?
Este planteamiento es
claro y bien definido, enfocándose en un aspecto específico de la educación
superior: la relación entre recursos educativos digitales y el rendimiento
académico.
2. Uso de Datos:
Generación de Datasets Adecuados y Relevantes
Para abordar este
problema, necesitamos un dataset que incluya:
Datos de Estudiantes:
Edad, especialización, nivel académico.
Rendimiento Académico:
Calificaciones, asistencia, participación en clases.
Acceso a Recursos
Digitales: Tipo y frecuencia de uso de recursos como bibliotecas digitales,
plataformas de e-learning, etc.
3. Desarrollo de Script
Python
El script en Python
debería estructurarse en varias partes:
Importación de Librerías:
Importar
librerías como pandas para la manipulación de datos, matplotlib para
visualizaciones, y scikit-learn para análisis estadístico.
Carga de Datos:
Cargar el dataset desde un archivo CSV o una base de datos.
Limpieza y Preparación de
Datos: Limpiar los datos para eliminar valores nulos o
incorrectos y prepararlos para el análisis.
Documentación:
Cada paso del script debe estar bien documentado para explicar qué se está
haciendo y por qué.
4. Análisis Exploratorio
de Datos (EDA)
El EDA involucra:
Visualizaciones: Gráficos
de barras, histogramas y gráficos de dispersión para entender la distribución y
relación entre las variables.
Estadísticas
Descriptivas: Media, mediana, rango, etc., para obtener
un resumen de los datos.
Búsqueda de Patrones:
Identificar patrones o correlaciones entre el acceso a recursos digitales y el
rendimiento académico.
5. Interpretación de
Resultados y Conclusiones
Basado en el EDA, se
pueden sacar conclusiones como:
Si existe una correlación
positiva entre el uso de recursos digitales y las calificaciones más altas.
Identificar qué tipo de
recursos digitales son más efectivos.
Proponer recomendaciones
para mejorar el acceso a recursos educativos digitales.
Este ejemplo muestra cómo
podríamos abordar un problema específico en educación superior usando datasets,
análisis de datos y Python. Es crucial que cada paso esté bien fundamentado y
respaldado por el análisis para llegar a conclusiones válidas.
Ejemplo de datasets,
sobre educación superior
1. Planteamiento del
Problema
Problema: Analizar el
impacto de los métodos de enseñanza (tradicional vs. digital) en el rendimiento
académico de los estudiantes de educación superior.
2. Uso de Datos:
Generación de Datasets Adecuados y Relevantes
Variables del Dataset:
ID Estudiante:
Identificador único.
Edad: Edad del
estudiante.
Especialización: Área de
estudio.
Método de Enseñanza:
Tradicional o Digital.
Calificaciones: Promedio
de calificaciones.
Participación en Clases:
Calificación de participación.
Proyectos Realizados:
Número de proyectos.
Satisfacción con el
Método de Enseñanza: Medida en escala de 1 a 5.
3. Desarrollo de Script
Python
Un esquema básico del
script en Python podría ser:
# Para realizar un análisis de datos básico,
primero importamos las bibliotecas necesarias
import pandas as pd
import
matplotlib.pyplot as
plt
import seaborn as sns
# Vamos a cargar el dataset que acabamos de crear
file_path = '/content/datos_educacion_superior.csv'
df = pd.read_csv(file_path)
# Realizaremos un análisis exploratorio de datos
básico
# Ver las primeras filas del DataFrame para tener
una idea de los datos
primer_vistazo = df.head()
# Descripción estadística básica de los datos
numéricos
descripcion_estadistica = df.describe()
# Conteo de métodos de enseñanza
conteo_metodos = df['Método de Enseñanza'].value_counts()
# Visualización: Histograma de las calificaciones
plt.figure(figsize=(8, 6))
sns.histplot(df['Calificaciones'],
kde=True)
plt.title('Distribución
de Calificaciones')
plt.xlabel('Calificaciones')
plt.ylabel('Frecuencia')
histograma_calificaciones = plt.gcf() #
Guardar la figura para mostrarla luego
# Visualización: Boxplot de satisfacción por método
de enseñanza
plt.figure(figsize=(8, 6))
sns.boxplot(x='Método de
Enseñanza', y='Satisfacción con el Método', data=df)
plt.title('Satisfacción
con el Método de Enseñanza')
plt.xlabel('Método de
Enseñanza')
plt.ylabel('Satisfacción')
boxplot_satisfaccion = plt.gcf() #
Guardar la figura para mostrarla luego
RESULTADOS:
(primer_vistazo, descripcion_estadistica,
conteo_metodos, histograma_calificaciones, boxplot_satisfaccion)
4. Análisis Exploratorio de Datos (EDA)
Visualizaciones:
Crear gráficos para comparar las calificaciones y la satisfacción de los
estudiantes con los distintos métodos de enseñanza.
Correlaciones:
Evaluar si hay una correlación entre el método de enseñanza y el rendimiento
académico.
Análisis Estadístico:
Utilizar pruebas estadísticas para determinar si las diferencias observadas son
significativas.
5. Interpretación de
Resultados y Conclusiones
Resultados:
Interpretar los gráficos y análisis estadísticos para entender el impacto de
los métodos de enseñanza.
Conclusiones:
Basar las conclusiones en los datos analizados. Por ejemplo, si los datos
muestran que los estudiantes con enseñanza digital tienen mejores
calificaciones y mayor satisfacción, se puede concluir que este método podría
ser más efectivo.



