Aprender ciencia de datos no es cuestión de suerte, es cuestión de dirección. En esta entrada comparto el roadmap que estoy siguiendo, dividido en etapas prácticas y con recursos concretos, para convertirme en un científico de datos completo. Si estás empezando, este camino también puede ser el tuyo.
ETAPA 1: Fundamentos esenciales
Objetivo: Dominar matemáticas, programación en Python y pensamiento lógico.
Matemáticas para ciencia de datos
Para entender modelos y algoritmos desde dentro, necesito una base sólida en:
- Álgebra lineal
- Cálculo
- Estadística
- Probabilidad
Cursos recomendados:
- Khan Academy – Álgebra y Estadística
- StatQuest (YouTube)
- Matemáticas para Ciencia de Datos (Coursera – UC San Diego)
Python para ciencia de datos
Aprender a programar en Python es esencial para manipular datos y construir modelos.
Temas clave:
- Sintaxis básica, funciones, estructuras de datos
- Librerías como NumPy, pandas, matplotlib
Cursos recomendados:
- Python for Data Science (freeCodeCamp)
- Curso de Python con proyectos (OpenBootcamp)
- Curso de pandas (DataTalksClub)
ETAPA 2: Manipulación de datos y EDA (Análisis Exploratorio)
Objetivo: Saber importar, limpiar y transformar datos desde distintas fuentes.
Fuentes y formatos de datos
Trabajo con:
- Archivos CSV, Excel, JSON, XML, .dat
- Bases de datos SQL
- APIs REST
Librerías clave: pandas, openpyxl, requests, sqlite3, sqlalchemy
Cursos recomendados:
- Data Wrangling with pandas (Kaggle)
- Automate the Boring Stuff with Python
- Exploratory Data Analysis (Coursera – Johns Hopkins)
ETAPA 3: Bases de datos relacionales y no relacionales
Objetivo: Dominar SQL, entender esquemas y trabajar con archivos desde la base de datos.
Bases relacionales: MySQL, PostgreSQL, SQLite
- Diseño de esquemas, normalización
- JOINs, subconsultas, vistas
- Carga/descarga de archivos
- Uso de ORM con SQLAlchemy
Cursos recomendados:
- SQL for Data Science (Coursera – UC Davis)
- MySQL Bootcamp (Udemy)
- PostgreSQL + Python (YouTube – mCoding)
Bases NoSQL: MongoDB
- Datos semiestructurados, documentos, blobs
Curso: MongoDB University – Basics
ETAPA 4: Visualización de datos
Objetivo: Comunicar insights de forma clara y visualmente atractiva.
Herramientas que uso:
- matplotlib, seaborn, plotly
- Streamlit para dashboards interactivos
- Power BI o Tableau (opcional)
Cursos recomendados:
ETAPA 5: Machine Learning
Objetivo: Construir modelos predictivos supervisados y no supervisados.
Librerías y modelos:
- scikit-learn, XGBoost, LightGBM, imbalanced-learn
- Modelos: regresión, clasificación, árboles, clustering, reducción de dimensionalidad
Cursos recomendados:
- Machine Learning con scikit-learn (OpenBootcamp)
- Intro to Machine Learning (Kaggle)
- Machine Learning (Coursera – Stanford, Andrew Ng)
ETAPA 6: Proyectos completos y despliegue
Objetivo: Construir y publicar proyectos con datos reales y modelos funcionales.
Habilidades prácticas:
- Integrar modelos en Streamlit
- Cargar archivos en tiempo real, guardar datos en SQLite o PostgreSQL
- Desplegar en Streamlit Cloud, Render, Railway o con Docker
Recursos útiles:
- Curso de despliegue con Streamlit + Docker (YouTube – DataWithDanny)
- Streamlit + SQLite project (Data Professor)
ETAPA 7: Especialización según intereses
Opciones posibles:
- Ciencia de datos aplicada a salud, finanzas, texto, imágenes…
- Profundizar en: Data Engineering, Big Data, NLP, Deep Learning, MLOps
Conclusión
Este roadmap no es un camino rápido, pero es sólido y progresivo. Cada etapa me acerca más al tipo de profesional que quiero ser: alguien capaz de entender los datos, construir modelos útiles y ponerlos al servicio de problemas reales.
Si estás siguiendo un camino similar, me encantaría saber cómo lo estás planteando tú. ¡Déjalo en los comentarios!