Ciencia de datos

La unidad de aprendizaje Ciencia de datos (bajo el nombre Análisis estadístico multivariado en el viejo plan) se imparte en enero-junio 2019 los lunes a las doce (V1–V4), salón 5303. Favor de instalar python3 y discord antes de llegar a la primera sesión.

La ciencia de datos consiste en aplicar herramientas computacionales, métodos estadísticos y modelos matemáticos en general a conjuntos de datos multivariados, de múltiples tipos de entrada, posiblemente en diversos formatos, grandes cantidades, potencialmente conteniendo ruido, errores, omisiones y duplicados con la finalidad de poder obtener respuestas estadísticamente respaldadas a preguntas de interés.

En este curso se realizan actividades de aprendizaje que de manera gradual forman un proyecto aplicado de ciencia de datos, usando

  1. herramientas de bash tales como sort, grep, sed, tr, awk, cut, uniq;
  2. el lenguaje Python en su versión tres con diversas librerías — administrando la instalación de las mismas con una herramienta tipo pip o conda.
Los participantes suben sus reportes, incluyendo el código, en el formato de Jupyter notebooks a repositorios públicos en línea de su selección (tipo GitHub, Bitbucket o Sourceforge), asegurando que se renderizen correctamente con nbviewer (lo que no se renderiza, no se califica), un notebook por práctica.

Las actividades, en su versión para calificar, deben estar disponibles en los repositorios correspondientes antes de las seis de la mañana de la clase siguiente a la especifiación de cada actividad (es decir, la práctica 1 debe estar publicada en el repositorio de la mañana de la clase en la cual se inicia la práctica 2, etc.). Las prácticas valen un máximo de siete puntos cada una y el artículo un máximo de 25 puntos, de los cuales 10 provienen de la evaluación de la profesora y 15 de la coevaluación entre las participantes; la calificación final es el mínimo entre la suma total de puntos obtenidos y cien.

El propósito de las sesiones presenciales no es enseñar paso por paso cada aspecto del uso de las herramientas involucradas; eso lo aprende cada quien leyendo instructivos y tutoriales o simplemente probando cosas. En la sesión de establecen las metas y se revisan con los ejemplos del proyecto demo posibles acciones a incluir en el trabajo individual de cada participante.

Participantes que no tienen conocimiento previo de programación pasarán más tiempo aprendiendo fundamentos de ello, igual como los que tienen malas bases en probabilidad y estadística, pero no se requiere ningún conocimiento previo, solamente disponibilidad y tiempo para leer y aprender.

Temario

Las clases de enero-junio 2019 son los lunes a las 12:00 (V1–4), salón por confirmar. Es primordial contar con acceso a una computadora para participar en las actividades. Se recomienda traer laptop a clase, de preferencia con un sistema operativo que cuente con un terminal de bash.

Resultados

Repo P1P2P3P4P5 P6P7P8P9P10 P11 P12 P13Art.
AA 366556754NP66
AB 777667667767
AG 777776777777
EG 767766562677
GS 3677NP5474NP6NP
LA 676NP163NP245NP
MB 7776NP6777777

Este sitio web ha sido preparado para ser utilizado con el navegador Google Chrome. Contacten a la profesora si tienen problemas en su uso; en el caso de reporte error, favor de incluir captura de pantalla del error para agilizar su corrección.





Actualizado el 15 de mayo del 2019.
https://elisa.dyndns-web.com/teaching/comp/datasci/