Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas
Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

sábado, 2 de mayo de 2015

¿Qué es Big Data?



Este ensayo pretende conocer qué es el fenómeno Big Data, en qué áreas se desarrolla, y qué opiniones se sostienen sobre él en la actualidad. Para eso, se escogió investigar información en internet de páginas web dedicadas a Big Data y opiniones de articulistas. Se espera, de esta forma, tener una comprensión general sobre Big Data y sus alcances.

1)    Big Data Fundamentals

Big Data es "sacar nuevas visiones profundas de datos previamente no estudiados e integrarlas a las operaciones de negocios (...) ¿Cómo? Implementando nuevas herramientas para hacer más análisis de más datos para más gente", así enuncia Big Data Fundamentals, un curso dictado a través de Internet por la Big Data University, con la participación de IBM.

El curso se refiere a Big Data como el procesamiento de una infinita cantidad de información que crece cada día en volumen, variaciones, velocidad y dispersión. Al asumir esta realidad, las empresas y organizaciones necesitan plataformas para percibir los datos, cuantificarlos, transmitirlos, resumirlos y valorarlos de acuerdo a su importancia y tipo para la toma de decisiones. Al final, el producto común de Big Data son tablas estadísticas que relacionan muestras mucho mayores y diversas de lo que nunca antes se pudo alcanzar.

En Big Data Fundamentals, son mostradas como ejemplo las múltiples fuentes de información que puede tomar en consideración el sector financiero: transacciones ejecutadas, datos personales de los clientes, eventos, correos electrónicos, redes sociales, equipos de seguridad, máquinas, videos e imágenes, fuentes externas como la prensa, relaciones institucionales, proveedores, empleados, contexto político, económico y social, la información de los sistemas de transporte global, datos del mercado de valores, entre otros. 

Con todas las fuentes de información anteriormente destacadas, el sector bancario y financiero podría realizar,  si sabe cómo,  reportes de las actividades, visualización de escenarios, modelos predictivos y mejoras en los procesos de atención y servicio al cliente.

Big Data es, entonces, una plataforma, no un software particular. Como plataforma o sistema integrado de varios tipos de software y equipos, un proyecto de Big Data incluye miles de depósitos de datos, corrientes informáticas, análisis en tiempo real de los datos, y equipos para clasificación de millones de piezas de información (estructuradas o no) que no cesan de generarse. 

La nueva complejidad de los datos trae nuevos retos, y es por ello que nace un nuevo profesional, el Científico de Big Data, una evolución del antiguo analista.

El Científico de Big Data no se dedica al estudio de una parte específica de un sistema, sino que tiene acceso a información de toda la organización y su contexto, por lo que necesita un conocimiento profundo del negocio para descubrir qué es importante en medio de la complejidad y tener la capacidad de comunicar sus hallazgos. "No solo entenderán los problemas de la organización, sabrán escoger los problemas cuyas soluciones son más valiosas, es un individuo renacentista que quiere aprender y traer cambios", dice el curso Big Data Fundamentals.

IBM, a través del curso, advierte las necesidades primordiales para desarrollar la Big Data: integración de información dispersa; supervisión de calidad, administración y clasificación de los datos; seguimiento del ciclo de vida de los datos;  seguridad y privacidad.

El curso da otro ejemplo de la complejidad de Big Data planteando su uso por el Gobierno estadounidense en el tema de seguridad nuclear. Asegura que una agencia gubernamental (cliente de IBM en la parte de Big Data) recibe información de cámaras de seguridad, de drones y aviones, de satélites, de dispositivos móviles, de las redes sociales, búsquedas en Google, mensajes de textos, reportes de inteligencia, análisis web,  de las computadoras instaladas en los complejos inmobiliarios, y de las máquinas que producen millones de gigas de información al día, y todo lo recibe en tiempo real. Con toda esta información, y a través de una plataforma Big Data, esa agencia puede fácilmente reconstruir un evento en una línea de tiempo y revisarlo en una perspectiva de 360 grados, es decir, desde todos los ángulos posibles.

Big Data es, concluye Big Data Fundamentals, una oportunidad para las industrias, el comercio, los Gobiernos y las comunidades de recibir mucha más información estadística pero con la condición de desarrollar un sistema para procesarla de manera confiable y segura.

2)    Críticas y precauciones con Big Data

Los autores Gary Marcus y Ernest Davis (The New York Times, 2014) enumeran motivos para desconfiar de la tendencia de tomar decisiones usando Big Data.

Big Data es "bueno detectando correlaciones, especialmente correlaciones sutiles que un análisis más pequeño podría perder" pero no dice cuáles son significativas, señalan.

Por otro lado, Big Data puede servir como un apoyo a un análisis científico tradicional y experimental, pero difícilmente se pueden tomar decisiones utilizando solamente Big Data, añaden los redactores. 

Otras críticas que presentan son: los instrumentos de medición de Big Data pueden ser burlados por la gente; muchos datos pueden hacer eco de errores anteriores especialmente si se sustraen de Internet;  cuando Big Data analiza texto, suele utilizar lectores que escogen determinadas palabras pero ignoran el contexto y si la cantidad de información es demasiado grande, nunca se podrá garantizar que el resultado estadístico  es preciso porque los datos de texto pueden estar en un contexto no deseado para la investigación.

"Cuando hablamos de datos, el tamaño no lo es todo", asegura Tim Hardford (FT Magazine, 2014).  Él indica que el primer reconocimiento a la Big Data fue el lanzamiento en 2008 de Google Flu Trends, un dispositivo que seguía la dispersión de la influenza en el mundo gracias a las búsquedas que hacían los usuarios de Google. El problema, advierte Hardford, es que años después los resultados generados fueron percibidos como exagerados porque la aplicación solo medía el número de búsquedas pero eso no significaba necesariamente la difusión de la enfermedad en una región específica.

En el tema de las redes sociales, Hardford señala que si se pudiesen capturar todos los mensajes generados, las predicciones para cualquier tema corren el riesgo de estar equivocadas porque las redes sociales no representan a todo el universo de una sociedad y solo a la parte que son usuarios de redes. 

"Estadistas están trabajando para desarrollar nuevos métodos que puedan atrapar esta oportunidad que es Big Data. Esos nuevos métodos son esenciales pero solo funcionarán si se construyen sobre viejas lecciones estadísticas, no ignorándolas", concluye Hardford.

Bernard Marr (Forbes, 2015), por su parte, advirtió que, si bien muchas empresas están buscando desarrollar proyectos de Big Data para extraer información de todas las fuentes posibles, lo hacen sin un propósito específico o sin un plan en mente.

También describe la posibilidad de errores administrativos a pesar de la utilización de Big Data. Explica que es posible que los directores de una organización no sepan qué hacer con la información que produce el laboratorio de análisis de data y por lo tanto cometan equivocaciones que signifiquen pérdidas para una empresa en vez de ganancias.

"Siento que la lección todavía no se ha aprendido. Esos con responsabilidad de reportar la data necesitan pensar ¿para quién es la data, y cómo puedo presentarla para asegurar que el mensaje llegó? Para uno de mis clientes, una compañía médica, los analistas recientemente crearon un reporte que era de 217 páginas. Al reemplazar la mayoría del texto con infografías, lo redujimos a 15 páginas que todavía contenían la información esencial", afirma Marr.

3)    Conclusiones

Big Data es reconocida como una tendencia que muchas empresas, organizaciones e incluso países están tomando en consideración para mejorar su eficiencia en el cumplimiento de objetivos. Sin embargo, Big Data es un fenómeno reciente que ha despertado desconfianza de ciertos sectores y, por lo tanto, todavía una valoración plena de sus alcances está sometida a hitos científicos que en el futuro estén relacionados con la implementación de estos sistemas. 

"Ellos han malinterpretado a la Big Data, calificándola como una fallida revolución de la prueba de hipótesis en ciencias sociales. Al hacerlo, ellos ignoran las áreas en las que Big Data ha hecho progreso substancial, como en los sitios webs ricos en datos, en la visualización de información y en el aprendizaje de máquinas", asegura César Hidalgo (Scientific American, 2014), Desarrollador de Carrera en el Massachusetts Institute of Technology, en respuesta a los críticos de Big Data.


4)    Fuentes


Big Data Fundamentals. Big Data University. http://bigdatauniversity.com/bdu-wp/bdu-course/big-data-fundamentals/. Revisado el 29 de marzo de 2015.

Eight (No, Nine!) Problems With Big Data. Gary Marcus y Ernest Davis. The New York Times. 6 de abril de 2014. http://www.nytimes.com/2014/04/07/opinion/eight-no-nine-problems-with-big-data.html. Revisado el 29 de marzo de 2015.

Where Big Data Fails. Bernard Barr. Forbes. 17 de marzo de  2015. http://www.forbes.com/sites/bernardmarr/2015/03/17/where-big-data-projects-fail/. Revisado el 29 de marzo de 2015.

Saving Big Data from Big Mouths. César Hidalgo. Scientific American. 29 de abril de 2015. http://www.scientificamerican.com/article/saving-big-data-from-big-mouths/. Revisado el 29 de marzo de 2014.


Víctor Manuel Álvarez Riccio
Caracas, 2 de mayo de 2015.
@vicmalvar