Los avances de las últimas décadas en la electrónica, los sistemas de almacenamiento y las comunicaciones, han traído como consecuencia la generación continua de datos con gran rapidez, diversa naturaleza y procedencia.

Es así como hoy en día, los teléfonos móviles, dispositivos GPS, las redes sociales y la Internet se han convertido en una fuente emergente de datos no estructurados con información valiosa sobre aspectos sociales, económicos, demográficos y de opinión pública.

Adicionalmente, también se encuentran los datos estructurados generados por las compañías privadas y públicas dentro de sus sistemas de información como resultado de los procesos productivos llevados durante la operación diaria.

EL BIG DATA

Eric Schmidt CEO Google estima que la humanidad ha generado hasta 2003 alrededor de 5 exabytes de datos, es decir, 5 millones de terabytes.

Actualmente la sociedad genera en 2 días toda la información que ha generado la humanidad desde sus inicios hasta el año 2003. Eric Schmidt, CEO Google, TechCrunch.  

Hoy en día a cada minuto se publican alrededor de 175.000 tweets, 700.000 comentarios en Facebook y se suben alrededor 48 horas de video a YouTube. En cuanto a creación de contenidos por minuto se crean unos 60 blogs y 1500 publicaciones. Más estadísticas en tiempo real en Internet Live Stats. Se espera que se cuadruplique antes del 2020 la cantidad de equipos conectados a Internet, es decir, se pasará de 4 billones a 15 billones de computadoras y dispositivos móviles inyectando datos a la autopista de la información.

Este fenómeno es conocido comúnmente como “Big data”, sin embargo, algunos autores también se han atrevido a bautizarlo como el “Data deluge” (The Economist), con el ánimo de ejemplificar literalmente al diluvio de datos al que estamos sometidos, por las enormes cantidades que se generan de los mismos actualmente en la sociedad.

El análisis sistemático de estos datos permite detectar tendencias o Smoke Signals, para referirse a alertas en aspectos de distintas índoles y que son de interés para el conocimiento de un proceso industrial, investigativo, social o de negocio.

Las tecnologías de hardware y software de la actualidad no permiten procesar adecuadamente los datos del Big Data. Esto ha propiciado la proliferación de una variedad de tecnologías innovadoras y de alto rendimiento, tanto abiertas (Open Source) como privadas, que permiten extraer información del Big Data y de esta manera asistir el proceso de toma de decisiones.

¿PERO QUÉ ES EXACTAMENTE EL BIG DATA?

El Big Data es un tipo de fuente de datos.

Así de sencilla es la respuesta a la pregunta de este apartado. En otras palabras y respondiendo a la pregunta en sentido negativo:

  • El Big Data no es una aplicación de software.
  • El Big Data no es un verbo.
  • El Big Data no es un gran volumen de datos.
  • El Big Data no es un conjunto de datos estructurados.
  • El Big Data no es Data Science.

De las aseveraciones anteriores es posible dar una definición más estructurada del concepto Big Data:

El Big Data es una fuente de datos que por sus características de escalabilidad, diversidad y disponibilidad requieren de nuevas soluciones de hardware y software para poder procesar datos con estas características.

Las tecnologías de hardware y software tradicionales no son capaces de recopilar, almacenar y procesar datos provenientes de una fuente de Big Data. Las razones son meramente técnicas y van más allá del objetivo de este artículo.

¿POR QUÉ FRECUENTEMENTE ES DEFINIDO EL CONCEPTO BIG DATA UTILIZANDO 3 LETRAS ‘V’?

Por razones mnemotécnicas.

Las características como la escalabilidad, la diversidad y la disponibilidad mencionadas en el apartado anterior, hacen referencia a que los datos provenientes del Big Data son de gran volumen, de variada naturaleza y crecen a una alta velocidad.

Las letras en ‘V’ mayúsculas fueron escritas intencionalmente con el objetivo de introducir al lector en la definición tradicional del concepto Big Data; la cual, por razones mnemotecnias, utiliza las tres letras ‘V’ para representar las tres características de las fuentes de Big Data.

¿POR QUÉ EN ALGUNAS OCASIONES SE DEFINE EL CONCEPTO BIG DATA CON UNA CUARTA ‘V’?

Por razones comerciales y de persuasión.

La 4ta ‘V’ representa el valor agregado que se obtiene al realizar una exploración estadística sobre los datos de una fuente de Big Data. Generalmente esta 4ta ‘V’ es utilizada dentro del discurso de venta de servicios o productos de Big Data para motivar la inversión en soluciones de esta índole. Esta ‘V’ ha sido anexada a la definición del sustantivo Big Data con la intención de verbalizar el concepto y finalmente ofrecerlo como un servicio.

El autor está convencido de que realizar analítica de datos sobre el Big Data genera un valor agregado para cualquier proceso de toma de decisiones. Sin embargo, esta 4ta ‘V’ no hace parte de la definición de Big Data, ya que la definición clásica define el concepto como un sustantivo.

En la siguiente entrega de este par de artículos sobre consideraciones alrededor del concepto Big Data, se reflexionará sobre cómo podemos identificar si una oportunidad corresponde o no a un tema de Big Data y las consecuencias del Big Data en la sociedad.

 

¿Tienes algún comentario acerca de la definición del concepto Big Data?