Este
ensayo pretende conocer qué es el fenómeno Big Data, en qué áreas se
desarrolla, y qué opiniones se sostienen sobre él en la actualidad. Para eso,
se escogió investigar información en internet de páginas web dedicadas a Big
Data y opiniones de articulistas. Se espera, de esta forma, tener una
comprensión general sobre Big Data y sus alcances.
1) Big Data Fundamentals
Big
Data es "sacar nuevas visiones profundas de datos previamente no
estudiados e integrarlas a las operaciones de negocios (...) ¿Cómo? Implementando
nuevas herramientas para hacer más análisis de más datos para más gente",
así enuncia Big Data Fundamentals, un curso dictado a través de Internet por la
Big Data University, con la participación de IBM.
El
curso se refiere a Big Data como el procesamiento de una infinita cantidad de
información que crece cada día en volumen, variaciones, velocidad y dispersión.
Al asumir esta realidad, las empresas y organizaciones necesitan plataformas
para percibir los datos, cuantificarlos, transmitirlos, resumirlos y valorarlos
de acuerdo a su importancia y tipo para la toma de decisiones. Al final, el
producto común de Big Data son tablas estadísticas que relacionan muestras
mucho mayores y diversas de lo que nunca antes se pudo alcanzar.
En
Big Data Fundamentals, son mostradas como ejemplo las múltiples fuentes de
información que puede tomar en consideración el sector financiero:
transacciones ejecutadas, datos personales de los clientes, eventos, correos
electrónicos, redes sociales, equipos de seguridad, máquinas, videos e
imágenes, fuentes externas como la prensa, relaciones institucionales,
proveedores, empleados, contexto político, económico y social, la información
de los sistemas de transporte global, datos del mercado de valores, entre
otros.
Con
todas las fuentes de información anteriormente destacadas, el sector bancario y
financiero podría realizar, si sabe
cómo, reportes de las actividades,
visualización de escenarios, modelos predictivos y mejoras en los procesos de
atención y servicio al cliente.
Big
Data es, entonces, una plataforma, no un software particular. Como plataforma o
sistema integrado de varios tipos de software y equipos, un proyecto de Big
Data incluye miles de depósitos de datos, corrientes informáticas, análisis en
tiempo real de los datos, y equipos para clasificación de millones de piezas de
información (estructuradas o no) que no cesan de generarse.
La
nueva complejidad de los datos trae nuevos retos, y es por ello que nace un
nuevo profesional, el Científico de Big Data, una evolución del antiguo
analista.
El
Científico de Big Data no se dedica al estudio de una parte específica de un
sistema, sino que tiene acceso a información de toda la organización y su
contexto, por lo que necesita un conocimiento profundo del negocio para
descubrir qué es importante en medio de la complejidad y tener la capacidad de
comunicar sus hallazgos. "No solo entenderán los problemas de la
organización, sabrán escoger los problemas cuyas soluciones son más valiosas,
es un individuo renacentista que quiere aprender y traer cambios", dice el
curso Big Data Fundamentals.
IBM,
a través del curso, advierte las necesidades primordiales para desarrollar la
Big Data: integración de información dispersa; supervisión de calidad, administración
y clasificación de los datos; seguimiento del ciclo de vida de los datos; seguridad y privacidad.
El
curso da otro ejemplo de la complejidad de Big Data planteando su uso por el
Gobierno estadounidense en el tema de seguridad nuclear. Asegura que una
agencia gubernamental (cliente de IBM en la parte de Big Data) recibe
información de cámaras de seguridad, de drones y aviones, de satélites, de
dispositivos móviles, de las redes sociales, búsquedas en Google, mensajes de
textos, reportes de inteligencia, análisis web, de las computadoras instaladas en los
complejos inmobiliarios, y de las máquinas que producen millones de gigas de
información al día, y todo lo recibe en tiempo real. Con toda esta información,
y a través de una plataforma Big Data, esa agencia puede fácilmente reconstruir
un evento en una línea de tiempo y revisarlo en una perspectiva de 360 grados,
es decir, desde todos los ángulos posibles.
Big
Data es, concluye Big Data Fundamentals, una oportunidad para las industrias,
el comercio, los Gobiernos y las comunidades de recibir mucha más información estadística pero con la condición de desarrollar un
sistema para procesarla de manera confiable y segura.
2) Críticas y precauciones con Big Data
Los
autores Gary Marcus y Ernest Davis (The New York Times, 2014) enumeran motivos
para desconfiar de la tendencia de tomar decisiones usando Big
Data.
Big
Data es "bueno detectando correlaciones, especialmente correlaciones
sutiles que un análisis más pequeño podría perder" pero no dice cuáles son
significativas, señalan.
Por
otro lado, Big Data puede servir como un apoyo a un análisis científico
tradicional y experimental, pero difícilmente se pueden tomar decisiones
utilizando solamente Big Data, añaden los redactores.
Otras
críticas que presentan son: los instrumentos de medición de Big Data pueden ser
burlados por la gente; muchos datos pueden hacer eco de errores anteriores
especialmente si se sustraen de Internet;
cuando Big Data analiza texto, suele utilizar lectores que escogen
determinadas palabras pero ignoran el contexto y si la cantidad de información
es demasiado grande, nunca se podrá garantizar que el resultado
estadístico es preciso porque los datos de texto pueden estar en un contexto no deseado para la investigación.
"Cuando
hablamos de datos, el tamaño no lo es todo", asegura Tim Hardford (FT
Magazine, 2014). Él indica que el primer
reconocimiento a la Big Data fue el lanzamiento en 2008 de Google Flu Trends,
un dispositivo que seguía la dispersión de la influenza en el mundo gracias a
las búsquedas que hacían los usuarios de Google. El problema, advierte
Hardford, es que años después los resultados generados fueron percibidos como
exagerados porque la aplicación solo medía el número de búsquedas pero eso no
significaba necesariamente la difusión de la enfermedad en una región
específica.
En el
tema de las redes sociales, Hardford señala que si se pudiesen capturar todos
los mensajes generados, las predicciones para cualquier tema corren el riesgo
de estar equivocadas porque las redes sociales no representan a todo el
universo de una sociedad y solo a la parte que son usuarios de redes.
"Estadistas
están trabajando para desarrollar nuevos métodos que puedan atrapar esta oportunidad
que es Big Data. Esos nuevos métodos son esenciales pero solo funcionarán si se
construyen sobre viejas lecciones estadísticas, no ignorándolas", concluye
Hardford.
Bernard
Marr (Forbes, 2015), por su parte, advirtió que, si bien muchas empresas están
buscando desarrollar proyectos de Big Data para extraer información de todas
las fuentes posibles, lo hacen sin un propósito específico o sin un plan en
mente.
También
describe la posibilidad de errores administrativos a pesar de la utilización de
Big Data. Explica que es posible que los directores de una organización no
sepan qué hacer con la información que produce el laboratorio de análisis de
data y por lo tanto cometan equivocaciones que signifiquen pérdidas para una
empresa en vez de ganancias.
"Siento
que la lección todavía no se ha aprendido. Esos con responsabilidad de reportar
la data necesitan pensar ¿para quién es la data, y cómo puedo presentarla para
asegurar que el mensaje llegó? Para uno de mis clientes, una compañía médica, los analistas recientemente
crearon un reporte que era de 217 páginas. Al reemplazar la mayoría del texto
con infografías, lo redujimos a 15 páginas que todavía contenían la información
esencial", afirma Marr.
3) Conclusiones
Big
Data es reconocida como una tendencia que muchas empresas, organizaciones e
incluso países están tomando en consideración para mejorar su eficiencia en el
cumplimiento de objetivos. Sin embargo, Big Data es un fenómeno reciente que ha
despertado desconfianza de ciertos sectores y, por lo tanto, todavía una
valoración plena de sus alcances está sometida a hitos científicos que en el
futuro estén relacionados con la implementación de estos sistemas.
"Ellos
han malinterpretado a la Big Data, calificándola como una fallida revolución de
la prueba de hipótesis en ciencias sociales. Al hacerlo, ellos ignoran las
áreas en las que Big Data ha hecho progreso substancial, como en los sitios
webs ricos en datos, en la visualización de información y en el aprendizaje de
máquinas", asegura César Hidalgo (Scientific American, 2014),
Desarrollador de Carrera en el Massachusetts Institute of Technology, en
respuesta a los críticos de Big Data.
4) Fuentes
Big Data Fundamentals. Big Data University. http://bigdatauniversity.com/bdu-wp/bdu-course/big-data-fundamentals/.
Revisado el 29 de marzo de 2015.
Eight (No, Nine!) Problems With Big Data. Gary Marcus
y Ernest Davis. The New York Times. 6 de abril de 2014. http://www.nytimes.com/2014/04/07/opinion/eight-no-nine-problems-with-big-data.html. Revisado el 29 de marzo de 2015.
Where Big Data Fails.
Bernard Barr. Forbes. 17 de marzo de
2015. http://www.forbes.com/sites/bernardmarr/2015/03/17/where-big-data-projects-fail/.
Revisado el 29 de marzo de 2015.
Saving Big Data from Big Mouths. César
Hidalgo. Scientific American. 29 de abril de 2015. http://www.scientificamerican.com/article/saving-big-data-from-big-mouths/.
Revisado el 29 de marzo de 2014.
Víctor Manuel Álvarez Riccio
Caracas, 2 de mayo de 2015.
@vicmalvar