Ingeniería de Variables (Feature engineering) : ¡arma secreta para mejorar las soluciones de aprendizaje automático (ML)!
En estos días hemos desarrollado unos ejemplos de Mapas GeoEspaciales con Datos Abiertos CDMX, en particular datos históricos de Linea Mujeres, hasta nov 2020 que fue migrada a LOCATEL
Generamos un mapa de calor, con GeoPandas y Folium, de la CDMX que pone colores según numero de llamadas de mujeres
https://catedraunescodh.unam.mx/catedra/Papiit2017/mapas/MapaLineaMujeresDatosHistoricos202011.html
Los datos se obtuvieron de:
https://datos.cdmx.gob.mx/dataset/linea-mujeres
Otro que ofrece acceso a datos en Entidades Federativas
Son ejemplos de como mostrar información con Mapas GeoEspaciales usando Python, Folium y próximamente con Streamlit y metiendo Series de Tiempo y predicción numérica con Prophet
Solo bibliotecas de código abierto y datos abiertos con Python, no se pierda nuestros próximos talleres de estos temas y tambien de NLP para manejo de textos con SpaCy!!
Ya grabamos varios tutoriales del tema.
Son los cortos de la película (Trailer) antes del estreno en el 2022.
Acceso Gratuito en YouTube:
Conferencia: Ciencia de Datos con Perspectiva de Género. Caso LOCATEL
Un primer tutorial en Python con Jupyter Notebook
Segundo tutorial
Tercer tutorial
Cuarto tutorial
Quito tutorial
Sexto tutorial
Miércoles 02 de marzo 2022 a las 19 hrs
Cuota PARA RECIBIR EL MATERIAL: 900 pesos
¡Es el Proceso de Analizar la Calidad de Ingredientes
Los grandes modelos no pueden existir sin datos de gran calidad.
Ahora decimos: "el aprendizaje automátiado es básicamente ingeniería de características o variables"
Una característica es un atributo / columna de datos que es significativa para un modelo de ML.
Ahora los conjuntos de datos tienen una gran cantidad de columnas en comparación con la cantidad de observaciones.
Esto puede conducir a lo que se conoce como la maldición de la dimensionalidad, que describe un universo extremadamente escaso de datos que los modelos ML tienen dificultades para aprender. La interpretación de los datos y el modelo es clave.
¡La ingeniería de funciones es la técnica más interesante ahora!
La ingeniería de características es la metodología utilizada para extraer representaciones numéricas de datos no estructurados para un modelo no supervisado (tratando de extraer la estructura de un conjunto de datos previamente no estructurado).
La ingeniería de características está transformando los datos en un formato que represente de manera óptima el problema subyacente que un algoritmo de Aprendizaje Automátizado está tratando de modelar.
¿Cómo usamos algoritmos y procedimientos de prueba estadística para identificar las características más sólidas?
Deje de ajustar su modelo ML; aprender más sobre ingeniería de funciones; Cambiará u vida como Científico de Datos.
¡Ofrezca grandes mejoras a sus procesos de aprendizaje automático sin perder horas ajustando parámetros!
La ingeniería de características es el arma secreta para mejorar los resultados de su Aprendizaje Automátizado.
Al mejorar la ingesta de datos, la manipulación y los elementos de transformación de su flujo de datos, puede ver mejoras dramáticas en sus resultados posteriores sin ajustar infinitamente los parámetros o perseguir los últimos modelos.
Sin comprender los datos, es imposible capturar, aprender y escalar los patrones inmersos dentro de los datos.
El CRISP-DM es un proceso de Aprendizaje Automátizado en 6 pasos. Los primeros 3 son estratégicos y están estrechamente relacionados con la ingeniería de características.
Contamos con nuestra metodología práctica de Ingeniería de Características de 12 tareas que compartimos en el taller para los aspectos de nuestra Metodología CRISP-WebGestiones
1. Definición del dominio del problema
2. Obtener datos y análisis de datos exploratorios
3. Ingeniería de funciones. Preparar datos como características numéricas para los algoritmos.
Miércoles 02 de mazo 2022 a las 19 hrs
Curso con perspectiva de género: Python, Matplotlib, Seaborn, Folium, GeoPandas y despliegue Streamlit con Open Data de CDMX asociado a mujeres
En el taller usamos Datos abiertos de CDMX para mostrar cómo llevamos a cabo el Análisis de datos exploratorios (EDA) para determinar la importancia de las características
Miércoles 02 de marzo 2022 a las 19 hrs
Duración del taller: 2 hrs.
CUOTA PARA RECIBIR EL MATERIAL: 900 pesos
Canal YouTube
https://www.youtube.com/channel/UCf49zOpIRJo5zK9P0Ma-sFQ/videos
Pago de PayPal
PayPal.me/saxsa2000
Pago bancario, solicitar CLABE BBVA
Dr. Gabriel Guerrero
saxsa2000 (arroba) gmail.com
Claim the event and start manage its content.
I am the organizer