Big Data Fundamentals S1 Carlos Roda & Bert Otte
ABP 1
Material previo Curso online “Big Data I”: • Capítulo 2: Introducción • Capítulo 3: ¿Qué es el Big Data? • Capítulo 4: Hadoop Curso online “Big Data II”: • (3) Capítulo 3: Fuentes externas/públicas de datos
Objetivos de aprendizaje • Entender por qué el Big Data supone un cambio significativo respecto al almacenamiento y tratamiento de la información que ya llevaba años haciéndose.
• Conocer los conceptos más relevantes relacionados con el Big Data. • Explorar el ecosistema Hadoop, con su sistema de ficheros HDFS y el algoritmo fundamental MapReduce. • Descubrir qué fuentes externas de información pueden servir para ampliar, complementar y enriquecer los datos de los que ya disponga una empresa u organización.
Texto Inicial I “Todo Juegos” es una empresa que, en sus inicios, consistía en una tienda de barrio que vendía todo tipo de juegos de mesa. Creó una base de datos tradicional y una tarjeta de fidelización para capturar información de sus clientes y las ventas asociadas. Con el paso del tiempo fue abriendo muchas más tiendas en diferentes lugares, replicando de forma aislada en cada una esa base de datos. Actualmente está atravesando una crisis y quiere empezar a anunciarse y potenciar su plataforma e-commerce para tratar de que remonten las ventas, pero se ha dado cuenta de varios problemas: • Su proveedor de desarrollo de la tienda online le va a implantar un tag manager para registrar la información de lo que hacen los visitantes de la web: visualizaciones de productos, clics, conversión, etc. Esto añade variedad a los datos que va a tener que manejar la empresa. • Además, para dirigir los anuncios en Real Time Bidding (RTB) a los segmentos adecuados y optimizar sus campañas, quiere almacenar y tratar enormes volúmenes de datos que generan los procesos RTB a gran velocidad. No tiene los sistemas adecuados para ello. • Lo anterior, más otras fuentes externas de datos (como las Redes Sociales) pueden enriquecer la información que ya conocía históricamente de sus clientes pero no tiene ni idea de cómo unificarlo y ni de cómo controlar la veracidad de todos los datos.
Texto Inicial II Los directivos de “Todo Juegos” tienen clarísimo que necesitan sacar valor de todas esas fuentes de información y cualquier otra que puedan encontrar pero son poco conocedores en sistemas informáticos modernos. En su cabeza, vagamente, la solución pasa por comprar un supercomputador que permita procesar todo eso pero alguien les dice que no es lo ideal, ya que no escala bien y además, cualquier fallo pondría en riesgo su negocio. A raíz de eso, investigan un poco y descubren que se están enfrentando a un problema de big data, y que existen nuevas tecnologías de almacenamiento y computación distribuida, como hadoop, que les pueden ayudar. Deciden contactar con expertos en el tema para que les guíen, ya que cuando empezaron a leer cosas como HDFS, MapReduce, Hive, licencias Apache, clústeres de ordenadores o Data Lakes, casi les explota la cabeza y ya sí que se vieron totalmente perdidos. ¿Les puedes ayudar?
Texto Inicial I “Todo Juegos” es una empresa que, en sus inicios, consistía en una tienda de barrio que vendía todo tipo de juegos de mesa. Creó una base de datos tradicional y una tarjeta de fidelización para capturar información de sus clientes y las ventas asociadas. Con el paso del tiempo fue abriendo muchas más tiendas en diferentes lugares, replicando de forma aislada en cada una esa base de datos. Actualmente está atravesando una crisis y quiere empezar a anunciarse y potenciar su plataforma e-commerce para tratar de que remonten las ventas, pero se ha dado cuenta de varios problemas: • Para dirigir los anuncios en Real Time Bidding (RTB) a los segmentos adecuados y optimizar sus campañas, quiere almacenar y tratar enormes volúmenes de datos que generan los procesos RTB a gran velocidad. No tiene los sistemas adecuados para ello. • Además, su proveedor de desarrollo de la tienda online le va a implantar un tag manager para registrar la información de lo que hacen los visitantes de la web: visualizaciones de productos, clicks, conversión, etc. Esto añade variedad a los datos que va a tener que manejar la empresa. • Lo anterior, más otras fuentes externas de datos (como las Redes Sociales) pueden enriquecer la información que ya conocía históricamente de sus clientes pero no tiene ni idea de cómo unificarlo y ni de cómo controlar la veracidad de todos los datos.
Texto Inicial II Los directivos de “Todo Juegos” tienen clarísimo que necesitan sacar valor de todas esas fuentes de información y cualquier otra que puedan encontrar pero son poco conocedores en sistemas informáticos modernos. En su cabeza, vagamente, la solución pasa por comprar un supercomputador que permita procesar todo eso pero alguien les dice que no es lo ideal, ya que no escala bien y además, cualquier fallo pondría en riesgo su negocio. A raíz de eso, investigan un poco y descubren que se están enfrentando a un problema de big data, y que existen nuevas tecnologías de almacenamiento y computación distribuida, como hadoop, que les pueden ayudar. Deciden contactar con expertos en el tema para que les guíen, ya que cuando empezaron a leer cosas como HDFS, MapReduce, Hive, licencias Apache, clústeres de ordenadores o Data Lakes, casi les explota la cabeza y ya sí que se vieron totalmente perdidos. ¿Les puedes ayudar?
Conceptos clave • Big Data • Volumen • Velocidad • Variedad • Veracidad • Valor • Sistema de ficheros distribuido • Computación distribuida • Escalabilidad horizontal • Hadoop • HDFS • MapReduce • Hive – SQL • Data lake • Orígenes de datos (internos/externos) • Open Data • Enriquecimiento de información
• Memoria principal • Disco duro • Base de datos tradicional • Captura de información • Compresión de información • Escalabilidad vertical • Supercomputador • Clúster de ordenadores • Tolerancia a fallos • Licencia Apache • Esquema de almacenamiento • Toma de decisiones • Computación en paralelo (vs. Distribuida) • Data warehouse • Logs web / Tag manager • Compra programática / RTB
Material adicional - ¿Qué es Hive?