Big Data Por dónde empezar
Guillermo Mazzeo
[email protected]
Agenda + De qué hablamos cuando decimos "Big data", conceptos para ir entendiendo + Quién puede trabajar con Big Data, perfiles + Qué herramientas y tecnologías existen para hacer Big Data, + Dónde puedo aplicar Big Data, casos de uso + Cómo es un proyecto de Big Data, método de abordaje + Qué necesito saber para hacer Big Data, preparación + Por dónde empiezo en el mundo Big Data, consejos y
recomendaciones Big Data: por dónde empezar ?
Escuela de Música
T1
T2 Big Data: por dónde empezar ?
T3
Escuela de Música
Big Data: por dónde empezar ?
Cuándo Big Data: por dónde empezar ?
Penetración de internet Número de usuarios de Internet como porcentaje de la población de un país.
57%
Big Data: por dónde empezar ?
https://www.internetworldstats.com/stats.htm
Penetración de internet
https://www.internetworldstats.com/stats15.htm#south Big Data: por dónde empezar ?
Penetración de internet
40.000 Millones
https://www.weforum.org/agenda/2019/03/what-happens-in-an-internet-minute-in-2019/
Big Data: por dónde empezar ?
✓ ✓ ✓ ✓ ✓ ✓ ✓
Celulares Sensores Autos Industria Drones Casas inteligentes Etc.
Conceptos
Es la derivación tecnológica del trabajo con datos, evolucionando desde las bases de datos tradicionales (RDBMS), con el agregado de nuevas fuentes de datos no estructurados. Considera un gran
volumen
de datos proveniente de
variadas fuentes que tiene una velocidad muy grande de cambio, requiriendo enormes capacidades de almacenamiento y procesamiento, por lo que los sistema de cómputo tradicionales NO pueden procesarlo en los tiempos requeridos actualmente.
Big Data: por dónde empezar ?
Características
✓
Volumen
✓
Variedad
✓
Velocidad
✓
Veracidad
✓
Valor
Big Data: por dónde empezar ?
Terminología
✓
Datos NO estructurados
✓
Base de Datos
✓
On Premise
✓
Cloud Computing
✓
Data Warehouse
✓
Data Lake
✓
✓
Dataset Machine Learning
Big Data: por dónde empezar ?
Cómo
?
Cómo analizamos los datos distribuidos en muchos lugares
Big Data: por dónde empezar ?
Cómo
? Cómo hacemos para transformar los datos en beneficios
Big Data: por dónde empezar ?
Por qué
?
Por qué es tan importante el Big Data
Impacto tanto en la industria, como en el negocio e incluso en nuestra sociedad y además ofrece una ventaja competitiva considerable. En los datos no estructurados existe el mayor valor. Hoy en día, para muchas empresas puede llegar a ser más importante detectar al cliente que más influye al resto de posibles compradores, que al que mayor volumen de compra realiza. La cantidad de datos que se generan es abismal y de una casuística extremadamente compleja para su análisis. Las empresas cada vez exigen que el análisis sea lo más cercano posible al tiempo real. Y en Big Data está la clave, al traducirse el mismo en las variables de velocidad, variedad y volumen que requiere el mercado actualmente. Big Data: por dónde empezar ?
Qué ?
?
Qué factores son clave para el éxito en un proyecto de Big Data
Big Data: por dónde empezar ?
Gobierno Estricta definición de políticas y normas en torno a la utilización de los datos Establece un marco de referencia, necesario para la maximización del valor de la información disponible de forma transversal en toda la organización a través de la definición de políticas, procedimientos y roles que faciliten la gestión efectiva del ciclo de vida del dato Permite garantizar la integridad y la gestión eficiente del dato
Gobierno
Seguridad
Calidad
Metadatos
Big Data: por dónde empezar ?
Ciclo de Vida
Arquitectura
Big Data: por dónde empezar ?
Arquitectura
Solución
Datos
Infraestructura Tecnologías
Integraciones Modelado Escalabilidad Tolerancia a fallos Big Data: por dónde empezar ?
Arquitectura Tipo de análisis Metodología de Procesamiento
• Real Time | Batch
• Predictivo | Analítico | Consulta y reportes
Frecuencia de datos
• On demand | Continuo | Real time | Serie de tiempo
Tipo de datos
• Metadata | Master data | Históricos | Transaccionales
Formato del contenido Fuentes de datos Consumidores de datos Hardware
• Estructurado | Semiestructurado | No estructurado
• Web y Social media | Generada por máquina | Generado por humanos | Internos | Transaccionales | Biométricos • Humanos | Procesos de negocio | Aplicaciones | Otro repositorio de datos • On Premise | Nube (Cloud) Big Data: por dónde empezar ?
Quién
?
Quiénes trabajan en el mundo Big Data
✓
Qué hace
Implementa y mantiene los entornos Implementa lo que diseñan los arquitectos Recomienda tecnologías
✓ Quién se puede convertir Ingeniero de Datos
Administradores de infraestructura Administradores de Bases de Datos
Big Data: por dónde empezar ?
Quién
?
Quiénes trabajan en el mundo Big Data
✓
Qué hace
Diseña los modelos de extracción Diseña los algoritmos de conversión Diseña los modelos de datos Establece la frecuencia de actualización ✓ Quién se puede convertir Arquitecto de Datos
Arquitectos de software Administradores de Bases de Datos Desarrolladores
Big Data: por dónde empezar ?
Quién
?
Quiénes trabajan en el mundo Big Data
✓
Qué hace
Implementa los algoritmos de transformaciones Implementa los algoritmos de predicción Genera los modelos analíticos Genera visualizaciones rápidas ✓ Quién se puede convertir Científico de Datos
Desarrolladores Actuarios Analistas técnicos
Big Data: por dónde empezar ?
Quién
?
Quiénes trabajan en el mundo Big Data
✓
Analista de Datos
Qué hace
Analiza los datos resultantes de las conversiones y predicciones Genera los reportes y tableros Experto en visualizaciones Presenta los datos al negocio ✓ Quién se puede convertir Desarrolladores Actuarios Analistas de negocio Analistas funcionales Big Data: por dónde empezar ?
Quién
?
Quiénes trabajan en el mundo Big Data
✓
Qué hace
Responsable de la estrategia, gobierno, control, y desarrollo de las políticas y la explotación de datos
Chief Data Officer
✓ Quién se puede convertir Gerente de Sistemas Gerente de alguna línea de negocios
Big Data: por dónde empezar ?
https://www.learnbigdatatools.com/big-data-cross-infrastructure-and-api-landscape-2019/
Big Data: por dónde empezar ?
Big Data: por dónde empezar ?
Big Data: por dónde empezar ?
Big Data: por dónde empezar ?
Big Data: por dónde empezar ?
Dónde Analiza longitud y tipo de clientes en las filas para determinar qué productos mostrar en pantallas. Fila larga: productos que se preparan y sirven rápido Fila corta: productos más elaborados
Calcula la probabilidad de interés de un determinado título: - Historial de visualizaciones y calificaciones - Actividad de otros miembros con gustos y preferencias similares - Información sobre los títulos (género, categoría, actores, etc) - Horarios, dispositivos y tiempo de visualización
El transporte de carga en Argentina consume 6,200 millones de litros de combustible por año (13MM de toneladas de CO2). Objetivos: reducir 5% el consumo (275MM litros pro año) - Dispositivos de telemetría en los vehículos - App de comportamiento de manejo en celulares de choferes - Datos de consumo provistos por el fabricante Big Data: por dónde empezar ?
Recomendaciones
Estrategia
Capacitación
El proyecto de Big Data debe responder a una necesidad del negocio y no a una decisión tecnológica
Depende del perfil:
Primero se debe construir la Arquitectura de Datos y luego hacer la inversión en Infraestructura Orientar la organización hacia la gestión de datos (data centric o data driven)
✓ ✓ ✓ ✓ ✓ ✓
Arquitecturas Bases de Datos NO SQL APIs Herramientas de Integración Desarrollo en R y/o Python para analytics Herramientas de explotación/visualización
Quick wins Big Data: por dónde empezar ?
Proyecto Big Data
Definir la estrategia y tener claros los objetivos
Alcance definido y acotado
Dar pequeños pasos y aprender haciendo
Identificar la necesidad real
Retorno de la Inversión
Big Data: por dónde empezar ?
Proyecto Big Data
Adquisición
Almacenam.
Procesam.
Orquest.
Big Data: por dónde empezar ?
Análisis
Visualización
Proyecto Big Data
Adquisición
Almacenam.
Procesam.
Orquest.
Big Data: por dónde empezar ?
Análisis
Visualización
Guillermo Mazzeo
[email protected] Big Data: por dónde empezar ?