INFORME OCTUBRE 2012
Patrocinado por
Big Data Cómo la avalancha de datos se ha convertido en un importante beneficio
INFORME OCTUBRE 2012
Big Data INDICE 1.1 Introducción
3
2.1 Qué es Big Data
4
2.1.1 El Big Data en diferentes organizaciones 2.2 La visión del analista: Big Data, mucho más que información
5 6
2.2.1 La explosión de la información
6
2.2.2 Mucho más que información
7
3.1 ¿Por qué es importante y cómo puede crear valor?
8
3.1.1 La importancia de la gestión de los grandes paquetes de datos
8
3.1.2 Crear valor
9
4.1 El tamaño actual del Big Data
10
5.1 El negocio del Big Data
13
5.1.1 Diferentes sectores frente al Big Data
13
5.1.2 Ejemplos de posibles beneficios de Big Data en algunos sectores
14
6.1 Técnicas y tecnologías alrededor de Big Data
15
6.1.1 Almacenamientos y procesamientos distribuidos
15
6.1.2 Bases de datos NoSql
15
6.1.3 Cloud computing
16
7.1 Big Data y su influencia en el mercado laboral 7.1.1 Nuevos roles 8.1 Implicaciones para gestores, sus organizaciones y sus políticas
Patrocinado por
17 18 19
Big Data
Introducción
1.1
Introducción Elijamos un día al azar, cualquier día de cualquier mes. Imaginemos los millones de usuarios que visitan Facebook, los millones de tweets que se publican y los millones de correos electrónicos que envían y reciben internautas de todo el mundo. Pensemos en las páginas que visitan, las noticias que leen, las ofertas que llaman su atención, los sites de billetes de avión, ropa, inmobiliarias, etc. ¿Cuántas cosas online hacemos cada día? Multipliquemos por los más de 2.247 millones de internautas (datos de abril de 2012, de la empresa sueca Pingdom1) que hay en el mundo. Ahora pensemos en cualquier empresa pequeña o mediana y en la cantidad de ordenes de compra y facturas que emite, en los informes que escriben sus empleados, en los correos electrónicos que envían y reciben, en todos los pasos que hay en sus procesos de producción y gestión. Traslademos esa idea a una empresa trasnacional con miles de empleados. Pensemos en todas las empresas del mundo. Si sumamos todas las organizaciones gubernamentales y administrativas del mundo, todas las ONG, los colectivos de cualquier ámbito, las cooperativas, etc. la explosión de la informática personal e Internet han ocasionado que la cantidad de acciones que generan datos se multiplique exponencialmente. Generamos datos constantemente y la tendencia es que este fenómeno aumente gracias al Internet móvil y al Internet de los objetos (objetos y dispositivos no informáticos conectados a la red). Ya no solo generamos datos cuando estamos en casa o en la oficina, los dispositivos móviles nos han otorgado la vida conectada que constantemente genera datos relativos a nuestra localización, nuestra participación en las redes sociales, las fotografías y vídeos que tomamos, las apps que utilizamos y la navegación móvil que realizamos. También se han multiplicado los mensajes y las llamadas por VoIP. Y si el Internet móvil ha ocasionado que los individuos produzcan datos constantemente, el Internet de los objetos hará lo próximo con millones y millones de aparatos que se conectarán a Internet para enviar y recibir información sobre su funcionamiento. Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zetabytes3. Ante esta explosión de datos solo hay un camino que al mismo tiempo ofrece a las organizaciones una oportunidad histórica de optimizar sus procedimientos y obtener ventajas competitivas: el Big Data.
1 http://royal.pingdom.com/2012/04/19/world-internet-population-has-doubled-in-the-last-5-years/ 2 Consultar infografía en capítulo El tamaño actual del Big Data. 3 Consultar cuadro de valores en capítulo El tamaño actual del Big Data.
Nombre del informe
3
Big Data
Qué es Big Data
2.1
Qué es Aunque son dos palabras sencillas de traducir (grande, datos) juntas forman un concepto complicado de expresar en castellano y en una frase sencilla. Básicamente se refiere a la enorme cantidad de datos que desde hace unos años se genera constantemente a partir de cualquier actividad que implique el uso de la informática de alguna forma. Al igual que el nivel de informatización de nuestras herramientas y la presencia constante del mundo online aumentarán notablemente a lo largo de los próximos 5 o 10 años, la tendencia de la generación de datos también es la de crecer marcadamente. Pero para hacer una explicación completa del Big Data hacen falta dos aspectos más además de la creación de datos: la gestión y el aprovechamiento. El concepto Big Data implica centros de datos, actividad en las redes sociales, aplicaciones cloud, analíticas, sensores y dispositivos móviles, datos de actividades profesionales, usuarios, clientes y proveedores. El Big Data bien entendido es la búsqueda del mejor camino para aprovechar al máximo esa avalancha de datos. Las organizaciones deben de entenderlo como un activo que tiene capacidad de mejorar todos los aspectos que las hacen funcionar, incluidos los beneficios. El primer paso para beneficiarse del Big Data es la gestión de los datos, la integración de éstos es lo que le da sentido y es dónde reside una de sus dificultades más grandes. Las empresas deben emplear herramientas que les permitan tener acceso a todos los datos -internos y externos-, organizarlos y elegir los más útiles. A partir de ese momento se pueden procesar los datos para obtener conclusiones a través de aplicaciones analíticas, que incluso pueden funcionar en tiempo real. El papel de la información en la innovación, la economía moderna y el crecimiento es fundamental, al mismo nivel que el capital humano o que los activos fijos. El uso de herramientas de Big Data es una tendencia natural.
Figura 1, Big Data es la confluencia de tres tendencias: datos de transacción, datos de interacción y procesamiento de Big Data.
Nombre del informe
4
Big Data
Qué es Big Data
2.1
El Big Data en diferentes organizaciones Independientemente de la fascinación que despiertan las increíbles cifras de datos que producimos constantemente, big no significa lo mismo en una organización grande, que puede llegar a gestionar varios petabytes, o en una pequeña, en donde algunos terabytes pueden representar un problema de gestión. Evidentemente la complejidad y las necesidades cambian para los diferentes tamaños, pero las oportunidades de mejora son reales en todas las compañías. Uno de los ejemplos más comunes para explicar las ventajas que las empresas medianas pueden obtener del Big Data es el de una compañía de ventas online que se dedica a un producto en particular. El estudio de la navegación que siguen los consumidores y de la actividad que realizan en las redes sociales le pueden dar información muy útil sobre los hábitos de consumo de los clientes (reales y posibles) y sobre la imagen de marca que ha construido entre ellos, con lo que las decisiones de diseño de página, oferta de productos y estrategia de marketing podrán ser mucho más acertadas. Pero la información que se obtiene a través del análisis del Big Data no solo es útil de cara a los clientes y consumidores, el funcionamiento interno de las organizaciones también se puede optimizar. Continuando con el ejemplo de la empresa de comercio electrónico pequeña, el estudio de los datos que se obtienen de las relaciones con proveedores, de los procesos y procedimientos internos, etc. puede resaltar los problemas de la comunicación entre departamentos, reducir el coste del departamento de compras y optimizar el proceso de distribución. En realidad el secreto detrás del Big Data no es nuevo. Encontrar las causas de los puntos débiles y fuertes siempre ha sido un objetivo de las empresas e instituciones, y la organización de la información ha sido una de las herramientas mas precisas para hacerlo. La importancia del Big Data reside en la enorme cantidad de información a la que nos enfrentamos hoy en día. La dificultad del análisis es mayor, pero también lo son las oportunidades de hacerlo. Internet y las nuevas tecnologías han ocasionado una revolución tecnológica que está afectando por completo nuestra vida privada y profesional, y el Big Data es el detonante de la siguiente etapa, en lo que a industria y consumo se refiere. De forma similar al impacto que tuvo la producción en serie en el final de la segunda revolución industrial, el Big Data cambiará por completo los procesos, las estrategias de distribución y logística, la elección de caminos de comercialización y cualquier aspecto de la producción y comercialización de productos y servicios. Todas las empresas, sin importar su tamaño ni sector, mejorarán gracias al Big Data. Hoy en día las organizaciones se debaten entre adoptar o no herramientas de Big Data, sin embargo en el futuro la pregunta será cómo en lugar de sí o no. El impacto del Big Data será incluso mayor que el de la producción en serie porque afectará a todas las empresas, no solo las fábricas, y a las organizaciones oficiales y a las no lucrativas.
Nombre del informe
5
Big Data
La visión del analista: Big Data mucho más que infórmación
2.2
Big Data: Mucho más que información Jaime García Cantero
Transacciones financieras y ventas en tiempo real, medidas de sensores en las cadenas de fabricación, localización de nuestra flota de distribución u opiniones de los clientes en las redes sociales. Nuestras organizaciones manejan en la actualidad una cantidad ingente de información. Su análisis hace posible una nueva manera de gestionar las organizaciones que el profesor del MIT Erik Brynjolfsson define como DDD (Data Driven Decision) que permite a las organizaciones ganancias de productividad de entre un 5 y un 6 % (Brynjolfsson, 2011). Big Data, unánimemente incluida entre las tendencias del año por todos los analistas y consultoras, es el conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de estas enormes cantidades de información para mejorar los resultados de nuestras organizaciones. Sin duda el impacto de Big Data y la complejidad de su implantación dependen en gran media de
la
organización
prácticamente pueden
verse
todos
concreta, los
pero
sectores
beneficiados
como
muestra la figura 1 en un ejercicio realizado por Mckinsey para el mercado de EEUU.
Figura 2: Facilidad y Potencial de la implantación de Big Data en los diferentes sectores
La explosión de la información Un estudio de investigadores de la Universidad del Sur de California publicado en la revista Science en mayo de 2011, cifraba la información digital almacenada en el año 2007 en todo el mundo en más de 276.000 millones de Gigabites, unas 1,.800 veces la información almacenada 20 años antes (Figura 1). Según este estudio, menos del 9% de toda esa información está almacenada en servidores. Lejos de frenarse, este crecimiento sigue acelerándose y dicho estudio prevé que la información generada en 2020 sea 50 veces la generada en 2011. Fuentes menos académicas pero que dan cifras más actualizadas, como la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (de los caros, de los de 32GB) necesitaríamos 57.500 millones, puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji. Estas magnitudes macro tienen su reflejo micro y la información gestionada y almacenada por las organizaciones también alcanza cifras espectaculares. Google procesa al día 20 petabytes de información o el CERN en Ginebra genera 40 terabytes por
Nombre del informe
6
Big Data
La visión del analista: Big Data mucho más que infórmación
2.2
segundo. Pero no solo estos gigantes manejan ingentes cantidades de información. Según la consultora Mckinsey, en 15 de los 17 sectores económicos analizados, la empresa americana media de más de 1000 empleados almacena más de 235 Terabytes (cantidad de información almacenada en la biblioteca del congreso de los EEUU, considerada una de las mayores del mundo). Pero esto sólo es el principio, la anunciada llegada de Internet de las cosas, en la que multitud de objetos cotidianos
están dotados
de “ojos y orejas” que les permiten ser conscientes del entorno que les rodea (context awareness) y de su posición geográfica (location awareness) en el entorno. Este entorno
que
distintos
Figura 3: La explosión de la información
autores
denominan de formas diferentes: Web squared (O´Reilly, 2009), pervasive computing (Weiser, 1993) o Everyware (Greenfield, 2006). Supone que el futuro de Internet es su encuentro con el mundo real. Una ingente cantidad de nueva información formará una piel digital que cubrirá el mundo físico y abrirá nuevas oportunidades para organizaciones privadas y públicas.
Mucho más que información Sin embargo, la información no es la parte crítica en el proceso de adopción de Big Data. Casi todas las organizaciones disponen ya de información suficiente o les resultaría relativamente sencilla su captura. El problema es la transformación organizacional y de los procesos y la inteligencia de negocio que permita sacar conclusiones de esa información. Y en esto es crítico entender que el perfil de los usuarios de la información estn cambiando y, si antes ésta parecía patrimonio de los departamentos financieros y por supuesto del CIO, hoy los directivos de marketing y operaciones se están convirtiendo en los usuarios más intensivos de la misma. Por eso es fundamental para el éxito de las iniciativas de Big Data una buena sincronía entre la capa de negocio y la infraestructura tecnológica subyacente. Las TI son sin duda la herramienta imprescindible para llevar a cabo cualquier proyecto de Big Data pero es el conocimiento de negocio el que determinará el éxito dea misma.
Nombre del informe
7
Big Data
¿Por qué es importante y cómo puede crear valor?
3.1
¿Por qué es importante y cómo puede crear valor? Es importante entender que el Big Data, o al menos la generación masiva de datos, no es una opción, es simplemente una realidad a la que nos enfrentamos como consecuencia del uso de dispositivos informáticos y redes digitales. Ahora bien, hay dos formas de enfrentarse a esta avalancha de datos: verla como un problema o como una oportunidad para crear valor. Su complejidad hace bastante comprensible que cuando se comenzó a vislumbrar el potencial de esta tendencia fuese considerada un problema, pero la tecnología está demostrando no sólo ser capaz deogestionarla sino también que las oportunidades asociadas son enormes.
El objetivo último del Big Data es el de entender las claves de la actividad a la que nos dedicamos mediante las analíticas. Ya sea definir los patrones de los pacientes de una enfermedad o mejorar una estrategia de distribución, los resultados son evidentemente el punto que más interesa, pero para crear valor a través del Big Data es necesario comprender el proceso entero.
La importancia de la gestión de los grandes paquetes de datos El término Big Data es utilizado indistintamente para referirse a la propia enorme cantidad de datos, a su gestión o a las herramientas que lo analizan. Y en realidad ninguno de los tres usos es incorrecto ya que el concepto Big Data en toda su magnitud, abarca las tres. Y su importancia se puede definir en 4 puntos: 1. Avalancha de datos. La tendencia de crecimiento de datos y aumento de la capacidad de procesamiento4 que comenzó hace casi cincuenta años se ha intensificado especialmente desde hace tres y lo seguirá haciendo a lo largo de los próximos. Hace relativamente poco tiempo un terabyte (TB) era una cantidad de información casi inimaginable pero hoy en día muchos centros de datos se miden en petabytes (PB) y hasta podemos hablar de zetabytes (ZB)5. Todas las organizaciones se enfrentan ya a esta situación, las herramientas para almacenar y gestionar los datos son absolutamente necesarias. 2. Impacto en la industria y los negocios. La generación de datos en las empresas es enorme independientemente del sector en el que se desempeñen. Los datos descontrolados pueden provocar, por ejemplo, una reducción importante del rendimiento de las aplicaciones empresariales, con lo que la productividad se ve afectada inevitablemente. Por el contrario, la correcta gestión de los datos ofrece información útil y pertinente sobre el funcionamiento de la propia empresa. Pero el impacto del Big Data en las empresas también llega a su estructura. El primer paso, evidentemente, está en los departamentos TIC: el Big Data implica la llegada de ingenieros y técnicos especializados en datos y los roles del resto del equipo técnico se verán irremediablemente modificados. Pero el panorama ideal sería el que las empresas llevaran acabo modificaciones en toda su estructura para adaptarse a un modelo basado en los datos, modelo en el que la permeabilidad entre departamentos sea una norma y ofrezca un mejor aprovechamiento de la información. 4 Gordon Moore, en su teoría conocida como la Ley de Moore, predijo en los años 60 que el número de transistores de un chip se duplicaría cada dos años. 5 1 PB = a 1.024 TB / 1 ZB = 1.073.741.824 PB
Nombre del informe
8
Big Data
¿Por qué es importante y cómo puede crear valor?
3.1
3. Impacto en la sociedad. No solo la industria se aprovechará del Big Data, prácticamente cualquier aspecto de nuestra vida puede mejorarse en tanto que se utilice algún dispositivo informático. Las administraciones públicas y el sector salud son el mejor ejemplo, con la mejora de los servicios a los ciudadanos. Pero no solo datos como los del tráfico o como los del tratamiento de un determinado grupo de pacientes serán monitorizados, nuestra actividad en los millones de ordenadores y dispositivos móviles que hay activos, genera información constantemente que esconde detalles sobre las formas en las que nos relacionamos, consumimos y trabajamos. 4. Ventajas competitivas. El concepto detrás del Big Data no es nuevo; siempre que alguien ha sido capaz de ordenar e identificar la información útil ha obtenido una ventaja competitiva o ha sido capaz de encontrar la respuesta a un problema determinado. Lo que hace especial a las herramientas de Big Data es la capacidad de llevar a cabo ese proceso con toda la información disponible. En el futuro la diferencia entre dos competidores no estará en el uso o no de herramientas Big Data, sino en el cómo las aprovechen.
Crear valor Las expectativas alrededor del Big Data son enormes y su alcance puede tener beneficios sociales además de los económicos: las técnicas de logística mejoradas por el análisis del Big Data generarán estrategias de distribución optimizadas, con lo que el impacto en el medio ambiente del transporte de contenedores será menor. Las administraciones de los países del tercer mundo y los llamados en vías de desarrollo podrían utilizar el análisis de la información para mejorar las condiciones de vida sus habitantes. Las organizaciones benéficas y las grandes instituciones como la ONU podrían llevar acabo acciones mucho más acertadas. El Big Data promete un nuevo mundo en el que las organizaciones encontrarán caminos para funcionar de forma más productiva, más sostenible y más rentable, pero para hacerlo será necesario también buscar nuevas formas de organización que primen la utilización de la información.
Nombre del informe
9
Big Data
El tamaño actual del Big Data
4.1
El tamaño actual del Big Data Alrededor de cualquier compañía se producen millones de datos relacionados con sus operaciones, sus proveedores y sus clientes. Los usuarios generan constantemente información mientras usan sus ordenadores y sus dispositivos móviles y el Internet de los objetos producirá un crecimiento exponencial en los próximos años, incluso meses. La explosión del Big Data ha llegado con el desarrollo masivo por parte de la industria de productos que han masificado tecnologías como Internet, Internet móvil o la del almacenamiento digital. Hoy en día se puede comprar un disco duro de dos terabytes por menos de 150 euros, el año 2011 cerró con casi 6.000 millones de teléfonos móviles activos y los usuarios de Facebook publican 532 millones de actualizaciones de estado cada día. McKinsey Global Institute (MGI) estima que las empresas y los consumidores almacenaron un total de 13 exabytes (EB) de datos nuevos en el año 2010 en todo el mundo. IDC, por su parte, calcula que el volumen de información creada, capturada y replicada en 2010 fue de 1.8 millones de petabytes (PB), lo que supone un crecimiento del 125% respecto al año 2009. Para el 2020, la consultora estima que se alcanzarán los 35 millones de petabytes, lo que representaría un crecimiento del 1.845%. Escala de datos Unidad
Tamaño
Lo que significa
Bit (b)
1o0
Diminutivo de ‘dígito binario’ (binary digit) por el código binario (1 o 0) que los ordenadores utilizan para almacenar y procesar datos
Byte (B)
8 bits
Información suficiente como para crear un carácter. Es la unidad básica de la informática
Kilobyte (KB)
1.000 o 230 bytes
Kilo en griego significa 1.000. Una página de texto son 2KB
Megabyte (MB)
1.000KB; 220bytes
Mega en griego significa grande. Las obras completas de Shakespeare son 5MB. Una canción suele tener alrededor de 4MB.
Gigabyte (GB)
1.000MB; 230bytes
Giga en griego significa gigante. Una película de dos horas puede comprimirse en entre 1 y 2GB.
Terabyte (TB)
1.000GB; 240bytes
Tera en griego significa monstruo. Todos los libros de la biblioteca del congreso estadounidense suman un total 15TB
Petabyte (PB)
1.000TB; 250bytes
Todas las cartas entregadas por el servicio postal estadounidense sumarán alrededor de 5PB. Google procesa aproximadamente 1PB cada hora.
Exabyte (EB)
1.000PB; 260bytes
El equivalente a 10.000 millones de copias de The Economist
Zettabyte (ZB)
1.000EB; 270bytes
Se calcula que al final del año habrá un total de 1,2ZB de información en total
Yottabyte (YB)
1.000ZB; 280bytes
Aún es imposible imaginarlo
Los prefijos están definidos por la Oficina Internacional de Pesas y Medidas. Yotta y Zetta fueron añadidos en 1991; los términos para medidas mayores están por establecer. Fuente: The Economist
Nombre del informe 10
Big Data
El tamaño actual del Big Data
4.1
Figura 4, La evolución de la tecnología ha permitido la explosión del Big Data.
La explosión del Big Data es, por tanto, la consecuencia natural del camino que ha seguido la evolución de la tecnología, marcado principalmente por la informática e Internet. La capacidad de almacenamiento, por ejemplo, ha experimentado un crecimiento exponencial impulsado por el propio crecimiento de la generación de datos, que a su vez es originado por la proliferación de dispositivos informáticos o informatizados. El abaratamiento progresivo del almacenamiento, de los ordenadores y de las tecnologías que los unen entre sí (redes, ancho de banda) es la piedra fundamental de dicha explosión. Para explicarnos el origen de esa enorme cantidad de datos, además de los 6.000 millones de teléfonos móviles activos, hay que tener presente que hay más de 1.000 millones de usuarios de Internet móvil, 900 millones de usuarios de Facebook, más de 2.000 millones de ordenadores y los más de 2.000 millones de internautas.
Nombre del informe
11
Big Data
El tamaño actual del Big Data
4.1
BIG TRANSACTION DATA BIG INTERACTION DATA BIG DATA PROCESSING
Figura 5: Big Data, big opportunities
Nombre del informe 12
Big Data
El negocio del Big Data
5.1
El negocio del Big Data De acuerdo a un estudio que ha realizado McKinsey Global Institute, los beneficios que se obtendrán del Big Data serán diferentes para las empresas dependiendo del sector al que pertenezcan. Sin embargo, los principales frenos para su implantación están relacionados con la resistencia que tienen los gestores de las empresas para adoptar medidas que permitan gestionar los datos a gran escala. La firma se refiere a esta resistencia como las barreras del uso del Big Data.
Diferentes sectores frente al Big Data Los sectores de información y de productos electrónicos e informáticos son los que mejor se sitúan para generar valor a partir del Big Data. Las compañías que los forman tienen acceso a una gran cantidad de datos útiles y la puesta en marcha de las innovaciones es un elemento fundamental de su mercado. Las administraciones y los sectores financieros tienen un gran potencial para aprovechar el Big Data ya que tienen un nivel transaccional y de participación de usuarios muy alto. Sin embargo la resistencia a utilizar analíticas de Big Data es un factor especialmente importante en este sector, ya que gran parte de la información que generan y gestionan es muy sensible . Hay un grupo de sectores que refleja un bajo nivel de crecimiento en la productividad (construcción, educación, artes y entretenimiento, etc.). McKinsey lo achaca a las “fuertes barreras sistémicas” a las que se enfrentan estos sectores. Si éstas fueran eliminadas, el Big Data tendría posibilidades de mejorar la productividad también en estos sectores. En cuanto al resto de sectores, hay una diferencia muy clara entre los que se mueven en mercados internacionales, que están acostumbrados a los aumentos de productividad, y aquellos que lo hacen en mercados locales, cuyo crecimiento de productividad es muy reducido. Sin embargo la mayoría de estos sectores, independientemente de la naturaleza de su comercio, podría notar mejoras relevantes en el dicho crecimiento si “derribaran las barreras” que les impiden utilizar el Big Data en su favor.
Figura 6, Posibilidades de obtener beneficios del Big Data.
Nombre del informe 13
Big Data
El negocio del Big Data
5.1
Ejemplos de posibles beneficios del Big Data en algunos sectores Servicios Financieros
Los datos obtenidos de los teléfonos móviles pueden permitir una comprensión profunda de los hábitos de gasto y ahorro en los diferentes sectores y regiones. Los historiales de pagos digitales permiten que los usuarios generen un historial de crédito, generando la posibilidad de que sean candidatos para préstamos y otros servicios de crédito financiero. Salud
Los datos recogidos a través de los dispositivos móviles, capturados por los profesionales del sector, presentados por individuos o analizados en forma de data exhaust (grandes cantidades de datos antes de ser procesados), pueden ser una herramienta útil para entender las tendencias de salud de la población o frenar los brotes epidémicos. Cuando se recolectan en un contexto de historiales sanitarios individuales, estos datos no solamente mejoran la continuidad en el cuidado de los pacientes, sino que pueden ser utilizados para crear bases de datos inmensas con las que los que tratamientos y resultados pueden ser comparados de forma eficiente y poco costosa. Agricultura
Los pagos móviles de productos agrarios, las compras y los subsidios pueden ayudar a los gobiernos a mejorar sus predicciones sobre las tendencias de producción de productos y sus incentivos. Este conocimiento puede ser utilizado para asegurar la adecuación del almacenaje de los cultivos, reducir los desperdicios y el deterioro de productos y proporcionar una mejor información sobre los tipos de ayuda financiera que necesitan los agricultores. El patrón de conducta del uso del teléfono móvil puede ayudar a los gobiernos y a las ONG a identificar las zonas en peligro. La detección temprana puede ayudar a prevenir que las familias abandonen sus tierras y el decrecimiento de la producción agrícola.
Nombre del informe 14
Big Data
Técnicas y tecnologías alrededor de Big Data
6.1
Técnicas y tecnologías alrededor del Big Data Ivan de Prado Alonso
Una de las características del Big Data es que su volumen rebasa las capacidades de cualquier ordenador, por muy potente que éste sea. Surgen problemas tanto para el almacenamiento como para el procesamiento y posterior servicio. La única manera de dar respuesta es, por lo tanto, dividir el problema de modo que se pueda aprovechar la potencia de varias máquinas en conjunto, agrupadas en un clúster. Esta es la característica común de todas las tecnologías Big Data.
Almacenamiento y procesamiento distribuido Google fue una de las primeras empresas que tuvo que enfrentarse a un problema asociado a un volumen de datos excesivo: cómo realizar un buscador de información que permitiese buscar entre todas las páginas de Internet. Por su tamaño, el problema requería de nuevas estrategias. Todos sabemos el resultado. En el camino, Google desarrolló su propio paradigma para el almacenamiento y procesamiento de datos: MapReduce. En 2004 el paradigma fue hecho público en un famoso artículo científico. Finalmente Doug Cutting creó una versión de código abierto de MapReduce llamada Hadoop (a la que posteriormente ha contribuido de forma significativa Yahoo!), que es sin ninguna duda la tecnología clave que subyace tras el Big Data. Hadoop es un sistema distribuido que corre en un conjunto de máquinas. Permite el almacenamiento masivo de datos a través de su sistema de archivos distribuido, que aprovecha la capacidad individual de almacenamiento de cada máquina de un modo conjunto. Pero no basta con almacenarlos. También se ha de ser capaz de procesar tal cantidad de información. Para ello, Hadoop implementa el paradigma de programación distribuida MapReduce, que procesa la información, explotando la capacidad de procesamiento individual de cada máquina. Hadoop es flexible, tolerante a fallos y escala horizontalmente: más máquinas, más capacidad de almacenamiento y procesamiento. Funciona sobre hardware básico e incluso heterogéneo. El procesamiento de información se realiza por lotes: cada lote recibe ficheros como entrada, procesa la información y genera ficheros como salida. Es decir, Hadoop no es “real-time”. Sin embargo, Hadoop es tremendamente potente. Es el principal culpable de la nueva y contra intuitiva regla del Big Data: reprocesarlo todo es más eficiente que actualizar un estado solo con la información que es nueva.
Bases de datos NoSql Hadoop es la herramienta clave para almacenar y procesar grandes cantidades de datos. Pero sin embargo no soluciona la cuestión de cómo se han de servir los datos una vez ya están procesados. Hadoop tampoco es una tecnología “real-time”. Estas tareas han sido realizadas habitualmente por las bases de datos relacionales. Pero el Big Data deja a estas bases de datos atrás. Las restricciones que imponen los modelos relacionales y el SQL no funcionan bien en un ambiente distribuido. A raíz de esto, han surgido nuevos sistemas de bases de datos que relajan los requisitos del modelo relacional para poder escalar. O bien soportan un subconjunto de operaciones restringido del SQL, o son simples almacenes de clave/valor. Esta es la razón por la que se les ha dado en llamar NoSQL: no soportan SQL. Algunos ejemplos de estas bases de datos son MongoDB, Redis, Cassandra, HBase o Amazon DynamoDB.
Nombre del informe 15
Big Data
Técnicas y tecnologías alrededor de Big Data.
6.1
Hay muchas bases de datos NoSQL diferentes, cada una con una cualidad diferente que la hace más adecuada para un problema que para otro. Pero todas ellas han surgido de la necesidad de tener bases de datos que permitan manejar la avalancha de datos que supone el Big Data.
Cloud Computing Tanto Hadoop como las bases de datos NoSQL funcionan en grupos de varias máquinas, y en función de la carga de cada sistema será necesario provisionar más o menos hardware. A estos niveles, cuando se empieza a hablar de usar diez, cien o mil máquinas, la provisión de hardware se puede convertir en un problema: primero, es una tarea costosa y difícil, segundo, es muy poco flexible: hace falta planificar con mucha antelación y se responde muy mal a picos y valles de demanda. Esta es la razón de la utilidad de servicios de cloud computing como Amazon Web Services o Rackspace cloud. A través de ellos es muy sencillo provisionar hardware: con un clic de ratón se pueden solicitar, configurar y arrancar cuantas máquinas sean necesarias. Una vez que no nos sean de utilidad, podemos pararlas y así prescindir del coste. Estos servicios hacen uso de la virtualización para poder ofrecer semejante flexibilidad. Otra de las ventajas es que el coste de administración de sistemas disminuye, pues parte de estas tareas son gestionadas por los servicios de cloud. En definitiva, el cloud computing es el tercer elemento, que junto con Hadoop y las bases de datos NoSQL permite extraer valor añadido del Big Data.
Nombre del informe 16
Big Data
Big Data y su influencia en el mercado laboral
7.1
Big Data y su influencia en el mercado laboral Aunque en líneas generales, el Big Data va a cambiar de forma clara el modo de gestionar las compañías, el principal reto profesional al que se enfrentan las empresas en la adopción del mismo es la búsqueda de profesionales cualificados que puedan gestionarlo. La cantidad de trabajadores que serán necesarios para hacer frente a la revolución del Big Data es muy elevada. Deloitte, por ejemplo, estima que el mercado del Big Data pasará a facturar durante 2012 unos 1.000 a 1.500 millones de dólares (teniendo en cuenta que aún está en sus primeras fases), incorporando el 90% de las firmas del índice Fortune 500 algún proyecto con estas características. Sólo para gestionar las incursiones en Big Data de las empresas de Estados Unidos, la consultora prevé que se necesiten en los próximos cinco años entre 140.000 a 190.000 profesionales con capacidades en este terreno (es decir, ya formados y listos para salir al terreno). McKinsey incluso adelanta que las empresas se van a enfrentar a escasez de talento para afrontar las necesidades del Big Data. Profesionales, todos ellos, por los que se pelearán las compañías y que invitan, por tanto, a empezar a prepararse ya mismo para el cambio de terreno de juego que se avecina. ¿Y cómo serán esos profesionales por los que industria tendrá que pelear? Varias consultoras coinciden en definirlos como data scientist, científicos del dato. Ovum considera que serán los más buscados y deseados por la industria, lo que empujará a una escalada de salarios similar a la que a finales de los años 90 vivieron los expertos en programas SAP. Se buscará a profesionales con habilidades en estadística y matemáticas, que sean creativos a la hora de determinar soluciones que el Big Data puede aportar a la hora de salvar su negocio o que sepan ver el panorama de una forma amplia. Como apuntan los analistas de Ovum, las empresas buscarán a un profesional con un perfil complejo, ya que fusionará en un único trabajador conocimientos y capacidades técnicas, analíticas y de negocio. No va a ser suficiente con saber la teoría, con ser un crack en tecnología, habrá que ir más allá para ser un buen profesional del Big Data. De hecho, según explica DJ Patil, jefe científico en LinkedIn en un estudio de An O’Reilly Radar, los grandes profesionales del Big Data son hard scientist, expertos que muchas veces son más físicos que informáticos, con una fuerte base en matemáticas y acostumbrados a ver “la imagen grande, el gran problema”. Son capaces de convertir ese gran problema en
Nombre del informe 17
Big Data
Big Data y su influencia en el mercado laboral
7.1
pequeños problemas, que les permiten desbrozar el bosque y conseguir soluciones (gracias a esos pequeños pasos) a grandes cuestiones que parecían intratables. Y además tienen que tener voluntad emprendedora y mucha paciencia. Son un perfil complejo, complicado, excesivamente completo, pero pueden ser la clave para conseguir el éxito. Google, Facebook o LinkedIn han sabido construir equipos con esas características y han hallado el éxito. Amazon ha hecho de los datos la clave de sus ventas: ¿qué es más que una aplicación exitosa del Big Data las recomendaciones de compra que realiza la tienda online?
Nuevos roles Los roles de los puestos de trabajo deben de pasar por un proceso de flexibilización para que puedan adaptarse a las necesidades de las organizaciones ante el nuevo modelo. Como los datos y su gestión ocuparán un papel tan importante en la estrategia general, será necesario que el trabajo de los empleados forme parte de la gestión y análisis de datos. Los departamentos tecnológicos son los primeros que están obligados a flexibilizar los roles de los empleados e incluso a desarrollar nuevos, como los especialistas de datos o data scientists. Pero esta tendencia pronto alcanzará al resto de departamentos, y las empresas que antes logren adaptar su estructura al nuevo modelo tendrán una ventaja competitiva muy importante.
Nombre del informe 18
Big Data
Implicaciones para gestores, sus organizaciones y sus políticas
8.1
Implicaciones para gestores, sus organizaciones y sus políticas El Big Data está llamado a transformar la industria, el comercio y los servicios públicos. Empresas de todos tamaños, instituciones educativas y de investigación, organizaciones sin ánimo de lucro y las administraciones públicas encontrarán –algunas ya lo hacen- en las herramientas de Big Data, ventajas competitivas, estrategias para mejorar la productividad y soluciones a problemas complejos. Pero para lograrlo, las organizaciones necesitan adaptarse a un modelo en el que el uso de la información y la gestión de datos se sitúan en el centro de la estrategia. Este modelo exige cambios en la estructura de la organización y en las relaciones jerárquicas para derribar las barreras a las que se refiere McKinsey en el informe citado en el capítulo de este documento El negocio del Big Data. Las organizaciones se han desarrollado durante años en un modelo que consideraba la información un arma de doble filo que había que proteger de la competencia, otros mercados, otros departamentos y de empleados, superiores y compañeros. Ese modelo proteccionista ha generado situaciones absurdas en el que, por ejemplo, un conocido fabricante de tecnología tenía a dos departamentos compitiendo entre sí para desarrollar productos similares, ocultándose información en lugar de colaborar entre ellos. El ejemplo del fabricante es muy útil porque esta situación coincidió con el momento en el que se enfrentaba a una evolución tecnológica -que a su vez coincidió con la crisis económica- que amenazaba su posición de líder del sector. Si la información fue un valor en el modelo anterior, el Big Data forma parte de los activos de las organizaciones en el actual y, como tal, se debe de utilizar a favor de los objetivos. Evidentemente siempre habrá información sensible que tendrá que estar protegida, pero para competir en los mercados actuales hay que compartir. No tiene sentido que el departamento de marketing no tenga acceso a los datos que genera la actividad del departamento de logística. La transparencia en los datos es la clave para que el Big Data funcione. Algunas empresas han notado mejoras en sus procesos incluso antes de aplicar analíticas complejas, la generación de valor comienza con las herramientas que hacen disponible la información y con las analíticas simples.
Nombre del informe 19
Big Data
Bibliografía • S aque el máximo partido del Big Data. Cómo convertir el Big Data en grandes oportunidades con la Plataforma Informática 9.1. Informatica. Mayo 2011. • U nderstanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. Paul C. Zikopoulos, Chris Eaton, Dirk de Roos, Thomas Deutsch, George Lapis. McGraw-Hill. 2012. • Big Data Now. O´Reilly Media. Septiembre 2011. • A re you ready for the era of ‘Big Data’? Brad Brown, Michael Chui, James Manyika. McKinsey Global Institute, McKinsey & Company. Octubre 2011. • Competing through data: Three experts offer their game plans. McKinsey Global Institute. Octubre 2011 • Putting Big Data to Work: Opportunities for Enterprises. Brett Sheppard. GIGAOM. Marzo 2011. • How strategic is our technology agenda? Business Technology Office, McKinsey & Company. Octubre 2011. • La irrupción del Big Data: tendencias, retos y oportunidades. Fernando Maldonado. IDC Research Iberia. Octubre 2011. • Big Data Analytics. Philip Russom. TDWI Research (The Data Warehousing InstituteTM). Octubre 2011. • B ig Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, McKinsey & Company. Mayo 2011. • S eizing the potential of ‘Big Data’. Jacques Bughin, John Livingston, Sam Marwaha. Business Technology Office, McKinsey & Company. Octubre 2011. • Using Big Data for Smarter Decision Making. Colin White. BI Research. Julio 2011. • What is Data Science? Mike Loukides. O´Reilly Radar Report. 2010. • Foto portada, wwarby de flickr • Foto página 17, Menno van der Horst de flickr
Patrocinado por
Nombre del informe 20
Patrocinado por