Debido al gran avance que existe día con día en las
tecnologías de información, las organizaciones se han tenido que enfrentar a
nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que
sus herramientas tradicionales reportan sobre su información, al mismo tiempo
que durante los últimos años el gran crecimiento de las aplicaciones
disponibles en internet (geo-referenciamiento, redes sociales, etc.).
¿Qué es Big Data? en términos generales podríamos referirnos
como a la tendencia en el avance de la tecnología que ha abierto las puertas
hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy
costoso cargarlos a un base de datos relacional para su análisis. De tal manera
que, el concepto de Big Data aplica para toda aquella información que no puede
ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin
embargo, Big Data no se refiere a alguna cantidad en específico, ya que es
usualmente utilizado cuando se habla en términos de petabytes y exabytes de
datos. Además del gran volumen de información, esta existe en una gran variedad de
datos que pueden ser representados de diversas maneras en todo el mundo, por
ejemplo de dispositivos móviles, audio, video, sistemas GPS, incontables
sensores digitales en equipos industriales, automóviles, medidores eléctricos,
veletas, anemómetros, etc., los cuales pueden medir y comunicar el
posicionamiento, movimiento, vibración, temperatura, humedad y hasta los
cambios químicos que sufre el aire, de tal forma que las aplicaciones que
analizan estos datos requieren que la velocidad de respuesta sea lo demasiado
rápida para lograr obtener la información correcta en el momento preciso.
Tipos de datos de Big Data:
1.- Web and Social Media: Incluye contenido web e
información que es obtenida de las redes sociales como Facebook, Twitter,
LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las
tecnologías que permiten conectarse a otros dispositivos. M2M utiliza
dispositivos como sensores o medidores que capturan algún evento en particular
(velocidad, temperatura, presión, variables meteorológicas, variables químicas
como la salinidad, etc.) los cuales transmiten a través de redes alámbricas,
inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en
información significativa.
3.- Big Transaction Data: Incluye registros de
facturación, en telecomunicaciones registros detallados de las llamadas (CDR),
etc. Estos datos transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados.
4.- Biometrics: Información biométrica en la que se
incluye huellas digitales, escaneo de la retina, reconocimiento facial,
genética, etc. En el área de seguridad e inteligencia, los datos biométricos
han sido información importante para las agencias de investigación.
5.- Human Generated: Las personas generamos diversas
cantidades de datos como la información que guarda un call center al establecer
una llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, etc.
La explosión de "grandes datos" está transformando
la manera en que se conduce una investigación adquiriendo habilidades en el uso
de Big Data para resolver problemas complejos relacionados con el
descubrimiento científico, investigación ambiental y biomédica, educación,
salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar donde se ha
llevado a cabo el uso de una solución de Big Data se encuentran:
- El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos.
- Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas (TCGA) para soportar las investigaciones relacionadas con el cáncer.
Conclusión:
La naturaleza de la información hoy es diferente a la
información en el pasado. Debido a la abundancia de sensores, micrófonos,
cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos
generados a partir de estos elementos serán dentro de poco el segmento más
grande de toda la información disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.
Bibliografía:
www.wikipedia.org
www.ibm.com