Un análisis completo: hacia la IA

Estás leyendo la publicación: Un análisis completo: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Análisis de los datos

Usar herramientas de análisis de datos para descubrir tendencias en el aprendizaje digital durante Covid19 y cómo las plataformas en línea son efectivas para las comunidades improvisadas.

Introducción

Hay un desequilibrio en el sistema educativo durante la pandemia de Covid19 y la mayoría de los estudiantes ni siquiera tienen acceso a herramientas educativas y plataformas de aprendizaje en línea. Existe una necesidad urgente de encontrar soluciones y mediante el uso de plataforma de aprendizaje conjunto de datos, calcularemos algunos de los patrones comunes e identificaremos los grupos en función de la demografía, la geografía y la accesibilidad.

Objetivos del proyecto

En este proyecto, utilizaremos herramientas de análisis de datos para descubrir tendencias en el aprendizaje digital y cómo es efectivo para las comunidades improvisadas. Compararemos distritos y estados en factores como demografía, acceso a Internet, acceso a productos de aprendizaje y finanzas. Al final, resumiremos nuestro informe y señalaremos las áreas que necesitan más atención para que la educación sea accesible para todos los estudiantes de los Estados Unidos.

Datos

El conjunto de datos está disponible en Kaggle bajo licencia no comercial.

Use este comando para descargar el conjunto de datos más rápido

!pip instalar kaggle
!kaggle concursos descargar -c learnplatform-covid19-impact-on-digital-learning

Tenemos tres tipos de Dataset.

  1. Los datos de productos contienen nombres de servicios, empresas y sectores educativos.
  2. Los datos del distrito contienen datos demográficos, ubicaciones y gastos educativos.
  3. Los datos de compromiso contienen el compromiso de los estudiantes con diferentes productos por día.

Producto

El archivo de producto products_info.csv incluye información sobre las características de los 372 productos principales con la mayoría de los usuarios en 2020. Las categorías enumeradas en este archivo forman parte de la taxonomía de productos de Learn Platform.

Cargando datos datos de productos educativos

Como podemos ver, tenemos nombres de productos, empresas y datos del sector con funciones principales.

Distrito

El archivo de distrito districts_info.csv incluye información sobre las características de los distritos escolares, incluidos datos de

  • NCES (2018-19),
  • FCC (diciembre de 2018), y
  • Laboratorio de Edunomics.

Cargando datos datos del distrito

Tenemos diferentes estados, lugares, gastos educativos y, lo que es más importante, tenemos datos demográficos.

Datos de compromiso

Los datos de compromiso se agregan a nivel de distrito escolar y cada archivo en la carpeta engagement_data representa datos de un distrito escolar.

Función de extracción de datos de participación

Nuestros datos de participación se dividen en varios archivos .csv, por lo que necesitamos crear una función de Python para extraer datos de los archivos individuales y unirlos en uno.

Cargando datos de compromiso de datos

Nos llevó 19 segundos cargar todos los archivos de una carpeta y ahora tenemos DataFrame que contiene todos los datos de compromiso de distracción.

🔥 Recomendado:  Más de 5 tácticas seguras de generación de leads en redes sociales para 2023

Datos perdidos

Veamos los tres marcos de datos para valores faltantes por columna

Trazar la función que falta

La función nos ayuda a trazar un gráfico de barras de Altair para todos los marcos de datos que contienen valores faltantes.

Como podemos observar, nuestro conjunto de datos de distrito contiene principalmente valores faltantes en pp_total_raw,pct_free/reduced,county_connections_ratio. Veamos todos los valores faltantes juntos en la siguiente sección.

La subtrama a continuación muestra los valores que faltan en los tres conjuntos de datos; los eliminaremos en la siguiente sección, ya que es difícil reemplazarlos sin información real.

Limpieza de datos

Limpiaremos los datos del distrito ya que contienen una serie de valores. Estaremos aprovechando ambos límites.

  1. Convertir la lista pct_black/hispanic y pct_free/reduced en float
  2. Convertir la lista pp_total_raw en Integers.
  3. Eliminación de la relación de conexiones_condado debido a los valores estáticos de 0,18 a 1 en todas las categorías.

Visualización de distribuciones de características

En esta sección, descubriremos diferentes distribuciones de características.

Distritos por estados

Como podemos ver, el conjunto de datos contiene más distritos de Utah e Illinois que cualquier otro estado.

Distribución local

Los suburbios dominan con un 59 por ciento, lo que también significa que las personas de clase media a alta tienen más acceso a Internet.

Proveedores de productos educativos

Google ofrece más productos educativos que nadie cercano.

Veamos cuáles son los productos proporcionados por Google

Distribuciones del sector educativo

Los sectores educativos se dividen en tres categorías, PreK-12, Educación superior y Corporativo.

Como podemos ver, la educación PreK domina la distribución con un 54 por ciento.

Funciones primarias con categorías principales y subcategorías

Hay tres tipos de funciones primarias principales.

  1. LC = Aprendizaje y plan de estudios
  2. CM = Gestión del aula
  3. SDO = Operaciones escolares y del distrito.

Puede interactuar con el diagrama de rayos solares de Plotly para explorar la distribución de las principales categorías y subcategorías.

Distribución de subcategorías de funciones esenciales

Podemos observar la distribución de todas las subcategorías.

Fusión de tres conjuntos de datos

Fusionaremos los tres conjuntos de datos en ID de LP e ID de distrito. Como podemos ver, el conjunto de datos combinado tiene 18 columnas que luego nos ayudarán con los gráficos de series temporales y geográficas.

Los mejores productos educativos

Los productos de Google dominan con Wikipedia y Netflix como excepción. Netflix ofrece a los niños contenido educativo y tutoriales.

Distribución de raza, tarifa reducida, gastos y conexión a Internet por estado

Usaremos la función Pandas para mostrar una tabla que muestra la distribución media de varias características relacionadas con la demografía y los gastos.

negro e hispano

Parece que Taxes tiene más estudiantes negros/hispanos que otro estado seguido de Florida, Michigan y Minnesota.

Cuota reducida o educación gratuita

Minnesota proporciona el 70 por ciento de la educación gratuita o de tarifa reducida, seguida por Michigan e Indiana.

Gasto total por alumno

Nueva York gasta más en educación que cualquier otro estado de EE. UU. Los estados subcampeones son Nueva Jersey y Minnesota.

🔥 Recomendado:  Mejor juntos Cuatro ejemplos de cómo Rust hace que Python sea mejor: hacia la IA

Distribución de series temporales de estudiantes de acceso a productos educativos

Estaremos observando distribuciones de series de tiempo de acceso al producto según la configuración regional y el estado.

Basado en la configuración regional

Las ciudades fueron las más afectadas por Covid19, lo que afectó más a los estudiantes, ya que tienen que estudiar desde casa, por eso podemos ver la caída en el acceso a los productos de abril a julio de 2020 en comparación con otros lugares. Durante las vacaciones de verano, los estudiantes dejaron de usar productos educativos. En los suburbios, los estudiantes tienen más acceso a las herramientas que en otro lugar. en general, todos siguen un patrón común.

Basado en los cinco estados principales

Nueva York fue la más afectada por el Covid19 y eso no afectó el aprendizaje en línea de los estudiantes, como puede ver, el gráfico se hizo más consistente después del cierre.

Basado en los cinco estados inferiores

Esto es extraño ya que Michigan y Carolina del Norte casi no tienen acceso a productos desde marzo hasta finales de agosto. Texas tiene un patrón similar pero tuvo un pico en junio. En general, estos estados inferiores se activaron después de septiembre de 2020.

Análisis geográfico

Esta sección analizará diferentes estados en función del acceso al producto y el índice de participación.

Acceso a productos educativos por estado

Nueva York tiene una puntuación de acceso a productos más alta que cualquier otro estado, luego vienen los estados naranjas de Wisconsin, Illinois e Indiana. Puede haber un vínculo entre la menor población de negros/hispanos en estos estados. Exploremos eso en la siguiente parte.

Existe una relación entre los estados con menor población de negros/hispanos pero no es más fuerte. Puedo ver a Nueva York y Wisconsin con una población negra/hispana más baja y una tasa de acceso más alta, pero cuando se trata de otros estados con un porcentaje más bajo de personas de color, está por todas partes. El sistema está bastante equilibrado con respecto a otras razas.

Índice de compromiso por estado

La distribución de compromiso por estado es bastante similar al acceso al producto. Es lógico que si los estudiantes tienen acceso a estos productos, existe la posibilidad de un aumento en el uso de estas plataformas.

Centrándonos en la gente del barrio improvisado

En esta sección, nos centraremos en la comunidad negra/hispana y las tarifas gratuitas o reducidas.

Correlación

Existe una alta correlación entre el acceso al producto y el índice de participación, lo que significa que si el estudiante tiene acceso a estos productos, podría usarlos a diario. También podemos ver otra alta correlación entre la educación negra/hispana y la gratuita/reducida. Esto significa que el gobierno está haciendo su trabajo para ayudar a las comunidades improvisadas a obtener una educación adecuada.

Acceso a productos negros/hispanos durante el año.

El siguiente gráfico muestra que, con el tiempo, las comunidades con una menor población de negros e hispanos tienen un patrón similar a algunos de los principales estados que hemos discutido anteriormente. Comparemos este gráfico con las comunidades mixtas.

🔥 Recomendado:  Aplicación ChatGPT para iOS

Podemos ver algunos cambios ya que el pico ha caído de 1,4 a 1,2. Es una disparidad entre los diferentes grupos raciales pero es marginal en comparación con otros países. Podemos decir que las comunidades negras/hispanas tienen menos acceso a productos educativos.

Código

Conclusión

Los datos se limitan a menos estados y no encontré ninguna evidencia concreta de que las comunidades negras o hispanas reciban un trato injusto. La educación en línea es bastante equilibrada para todos. Vi cómo algunos de los estados se desempeñan peor en términos de calificación de acceso al producto, esto podría deberse a una mala formulación de políticas y falta de conciencia. Podemos ver que Google está dominando la industria de la educación en línea al proporcionar un ecosistema completo. La mayoría de los estudiantes de prekínder utilizan estas plataformas para el aprendizaje digital. Los suburbios tienen la mayor cantidad de estudiantes que acceden a estos productos y podemos ver una clara correlación entre el acceso al producto y el índice de participación. También existe una alta correlación entre negro/hispano y educación gratuita/tarifa reducida, lo que significa que el gobierno está haciendo todo lo posible para ayudar a la comunidad pobre al brindar educación gratuita.

Puedes seguirme en LinkedIn, Gorjeoy politrabajo donde publico mi artículo semanalmente.


Aprendizaje digital durante Covid19: un análisis completo se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA