Para iniciar la discusión.

Hace unos días (el 25 de junio de 2015 para ser exactos), se llevó a cabo el evento Simple SAP Day MX, al cual fui amablemente invitado, dicho sea de paso —que es la razón por la cual escribo esto—. En el evento se estuvieron abordando diferentes temas, todos orientados a la utilización de algunos productos tecnológicos de SAP. Y aunque el objetivo no es hacer una revisión del evento, sí compartiré el planteamiento que expuse ese día.

¿Se puede hacer Data Science con SAP? O quizá la primer pregunta es: ¿se puede hacer Data Science para negocios?

A estas alturas del partido no creo que exista alguna duda de la respuesta a la segunda pregunta, que además da a lugar para una larga plática y texto de montón. Pero entonces, ¿qué se puede hacer de Data Science con SAP?

Antes de abordar el punto muy particular del Data Science con SAP, quisiera plantear algo que yo considero como el argumento central de mi plática: Data Science es distinto a Big Data. Y me gusta resaltar este punto porque hay gente allá afuera que actualmente confunde ambos términos e incluso los llega a pensar como sinónimos. Hay una frase que condensa muy bien la diferencia:

“Big Data needs Data Science, but Data Science doesn’t need Big Data”. — @data_nerd

Y más allá de ofrecer una definición de qué sí y qué no es Data Science, bien podemos estar de acuerdo en que esta área de conocimiento lleva existiendo ya algunos años. Básicamente son un conjunto de técnicas de procesamiento de información, desarrolladas en su mayoría en el mundo académico, que habían sido poco o nada explotadas hasta ahora. Actualmente resultan de gran interés sobre todo porque ya son computables en un tiempo razonablemente corto. Al tiempo en que estas técnicas fueron desarrolladas, los recursos de hardware que existían eran casi siempre insuficientes, por lo que ejecutar algún algoritmo de minería de datos, por ejemplo, podría llevarse un tiempo considerablemente grande antes de ser siquiera considerado para poder aplicar la explotación de información y ofrecer así alguna ventaja al área de negocio que exigía resultados inmediatos.

Con la mejora en la disposición y costo del hardware, además del constante desarrollo y mejora de las técnicas, se hizo cada vez más factible la migración y aprovechamiento de los nuevos desarrollos en el mundo empresarial. Si nos apegamos a la definición de Wikipedia, la ciencia de los datos es la extracción de conocimiento de grandes volúmenes de información que no necesariamente está estructurada. Y si bien esto ya arroja alguna luz sobre el objetivo principal de la ciencia de los datos, sería bueno aterrizar más el concepto.

Algunos ejemplos de técnicas que se tienen en Data Science son: Reconocimiento de patrones, Procesamiento de texto o lenguaje natural, Inteligencia artificial, Algoritmos de optimización, entre otras. Todas estas técnicas nos dan excelentes casos de negocio que incluso ya se han convertido en los ejemplos clásicos de aplicaciones empresariales. Por ejemplo, con las técnicas adecuadas del reconocimiento de patrones podemos mejorar las campañas publicitarias dirigidas a los clientes de una tienda departamental; de igual forma, se puede estar haciendo minería de texto sobre las opiniones vertidas de los usuarios de redes sociales acerca de un servicio ofrecido por alguna empresa interesada; empleando la inteligencia artificial es posible plantearse aplicaciones donde se realice reconocimiento de imágenes como las placas de los autos en un estacionamiento. Los casos de uso son muchos, son variados, son útiles y son interesantes.

“The best way to predict de future is to create it”. — Peter Drucker

En general, algunas de las técnicas mencionadas anteriormente se agrupan en una categoría llamada “Análisis predictivo”. Bajo este concepto se ha caído nuevamente en una confusión con el concepto de Business Intelligence. Son temas completamente diferentes. La diferencia radica principalmente en el tiempo al que el análisis está enfocado. Los temas relacionados a BI son descriptivos, que a lo más se ubican en un tiempo presente; mientras que los análisis predictivos parten del presente y buscan hacer inferencias y deducciones con la información procesada. Muchas veces es información que está siendo procesada en tiempo real.

Junto con el análisis predictivo viene un empoderamiento de la información. Esta nueva forma de hacerse dueños de la información a través de la extracción del conocimiento que ya no es tan intuitivo y natural a nuestras capacidades, abre una amplia gama de aplicaciones que aumenta la plusvalía de la información. Difícilmente tendremos limitaciones tecnológicas para la explotación de la información. De hecho, y es aquí donde nos regresamos al barco de SAP, con SAP HANA las tareas se simplifican mucho más.

SAP HANA es una tecnología de base de datos cuyo paradigma de funcionamiento se basa en la ubicación de la información en la memoria RAM y en el almacenamiento de la información en tablas columnares. Pero además viene con algunas baterías incluidas ya que cuenta con diferentes algoritmos que pueden ser utilizados como funciones nativas de la base de datos. Estos algoritmos facilitan las tareas relacionadas al análisis predictivo. Se incluyen algoritmos para poder calcular y clasificar grupos de datos, para procesar series de tiempo, para aplicar redes neuronales, etc. Los beneficios son casi inmediatos.

Se pueden optimizar diferentes procesos internos en el negocio, así como generar nuevas áreas de interés; mejorar el margen de ganancias, poder calcular y manipular la retención de los clientes o hasta plantear nuevas y mejores estrategias de ventas.

Las aplicaciones son muy atractivas para los negocios, y la tecnología cada vez lo hace más fácil. Lo cual, si la sabemos aprovechar, puede darnos una ventaja definitiva sobre nuestros competidores.

Entonces, ¿qué más se puede hacer de Data Science con SAP?
¿Tienes algún caso de uso con SAP HANA?