Este artículo corresponde a la segunda parte de la serie de artículos que abordan algunas consideraciones en torno al concepto Big Data. En la primera parte se describieron aspectos sobre la definición del concepto. En esta segunda parte se discute como cómo identificar si estamos frente a un problema de Big Data y de las consecuencias del Big Data en la sociedad.

¿Cómo identificar si estamos frente a una oportunidad o problema de Big Data?

La experiencia práctica del autor sugiere que en pocas ocasiones se está frente a un verdadero problema de Big Data.

Por lo menos para el caso particular de la industria Mexicana, son escasas las situaciones en las que se tiene un problema de esta índole. Por ejemplo, la situación más común es la presencia de un gran volumen de datos, con una baja velocidad de crecimiento (diario) y un único tipo de datos (estructurado). Si nos ceñimos a la definición, este no es un caso de Big Data, ya que es necesario que estén presentes las 3 características asociadas a la velocidad, volumen y variedad de datos.

La sugerencia del autor para identificar si nos encontramos frente a un problema de Big Data es remitirse a su definición, es decir, si para tomar una decisión o responder a una pregunta de negocio, es necesario conectarse a un gran volumen de datos, que crecen a alta velocidad y que cuenta tanto con datos estructurados como no estructurados. De ocurrir lo anterior, estamos frente a una oportunidad de Big Data.

Algunos ejemplos de Instituciones nacionales con oportunidades en el área del Big Data son: el Instituto Mexicano de Seguridad Social (IMSS) y la Bolsa Mexicana de Valores (BMV). El primero especialmente por el volumen y la combinación tanto de datos estructurados y no estructuradas, y el segundo, principalmente por la gran velocidad de crecimiento de los datos aunque no exista una cantidad significativa de datos no estructurados.

 

¿Cómo identificar si una fuente de datos es de gran volumen de datos?

No se ha establecido a partir de que volumen se podría considerar una fuente de datos como de gran volumen. No obstante, partiendo de que las bases de datos tradicionales no son adecuadas para almacenar y procesar datos provenientes del Big Data, y que éstas pueden operar adecuadamente hasta 40TB o 50TB de datos, podemos clasificar a una fuente de volumen superior de datos, como una fuente de Big Data.

 

¿Cuáles son las consecuencias del Big Data en la sociedad?

El Big data ha ocasionado desde el punto de vista tecnológico, social y educativo, las siguientes consecuencias relevantes de acuerdo a la percepción del autor:

  • Aparición de bases de datos no relacionales: Las bases de datos tradicionales (Oracle, SQL Server, MySQL, PostgreSQL, DB2, etc) no permiten el almacenamiento de datos no estructurados, y además, no presentan un desempeño lectura/escritura y capacidad de almacenamiento adecuado a las características de los datos provenientes de una fuente Big Data (volumen, velocidad, variedad). De allí el surgimiento de las conocidas como Bases de datos no relacionales (HBase, Cassandra, Mongo, etc). Éstas suelen ser tan rápidas como las relacionales tradicionales y con capacidad de almacenamiento distribuido y almacenamiento de datos no estructurados.
  • Surgimiento del enfoque de procesamiento en paralelo: Los algoritmos estadísticos están siendo convertidos al enfoque de procesamiento en paralelo, el cual consiste en la asignación simultánea de tareas a lo largo de redes de decenas de computadoras y sus correspondientes procesadores. Este enfoque reduce los tiempos de generación de modelos estadísticos a partir de grandes volúmenes de datos, a raíz de que una tarea es dividida en otras más pequeñas las cuales se realizan de manera simultánea en cada uno de los procesadores de los equipos que conforman la red. En otras palabras, a mayor cantidad de equipos y procesadores, mayores son las capacidades de procesamiento y almacenamiento de una red de computadoras. Spark es una herramienta software del Big Data que contiene varios algoritmos estadísticos bajo un paradigma de procesamiento en paralelo. Lee el artículo de Guillermo Martínez en donde realiza una breve y sustanciosa descripción de Spark.
  • Demanda de nuevos perfiles profesionales: Una alta demanda de perfiles profesionales con competencias para el tratamiento y análisis de grandes cantidades de información. Para tal propósito, estos nuevos perfiles se apoyan en los lenguajes de programación y en la aplicación práctica de conceptos teóricos de la minería de datos y de la estadística clásica y multivariante. Tal perfil se conoce actualmente como Data Scientist, y están siendo requeridos en distintas áreas del conocimiento para la optimización de procesos productivos a través de hallazgos extraídos del análisis de grandes conjuntos de datos.

 

El Big Data no es una aplicación software, no es un verbo y tampoco un gran volumen de datos, por el contrario, éste es un sustantivo que hace referencia a una nueva fuente de datos con características únicas de escalabilidad, disponibilidad y diversidad. El Big Data ha traído consigo un conjunto de consecuencias a la sociedad actual. Él ha venido para quedarse y cambiar drásticamente la manera en como se toman actualmente las decisiones. Lo anterior será posible, siempre y cuando tengamos:

 

  • Plataforma analítica: La infraestructura hardware y software adecuadas para el Big Data.
  • Conocimiento estadístico y matemático: Los conocimientos sólidos sobre matemáticas, modelado estadísticos y máquinas de aprendizaje.
  • Conocimiento del negocio: Conocimiento técnico del negocio o del proceso sujeto a la toma de la decisión.

 

Y tu, ¿Tienes alguna otra consideración sobre el concepto Big Data? ¿En qué no estás de acuerdo con lo expuesto en esta serie de artículos?