Petabytes, Zetabytes, Terabytes esto es mucho dato

Hola conspiradores volviendo a la labor luego de las muy pequeñas vacaciones digamos que en comparación al título de este post correspondió a una limitada y humilde pequeña cantidad de bytes.
Hace tiempo que se habla del aumento vertiginoso de la cantidad de información y de lo complejo que se hace manejar la ingente cantidad de datos que se producen, pero no por trillado deja de ser real ni de continuar en aumento.
Recuerdo que en el primer post que publique (La información se duplica cada dos años) ya hablaba algo sobre el tema.
Bien esto no parece tener retroceso y con el avance de la tecnología continua el aumento y saturación, los nuevos dispositivos como las VANET's, las aplicaciones que continúan en aumento, nuevos sistemas como android, distintos sistemas de teledetección, etc. envían datos y más datos, ya no solo somos nosotros, las herramientas que creamos para facilitarnos la vida también contribuyen en forma automática o semiautomática al aumento de la información.
Debido a esto los científicos encuentran serias limitaciones en varias áreas, así como los motores de búsqueda, entonces aparece un nuevo término Big Data que refiere al conjunto de datos que supera la capacidad de software existente para ser manejados y gestionados. Con respecto a esto en abril del 2010 se estableció un convenio entre la Biblioteca del Congreso y Twitter, para que esta se encargara del archivo de todos los tweets que almacenaba dicha empresa, se hacía cargo de 170.000 millones de tweets públicos, 130 terabytes, que crecían a un ritmo de 140 millones de tweets por día, pero que actualmente lo hace más rápido.
Para hacer recuperable la información la LC utilizó técnicas de Big Data y no pudo en un informe a cerca del trabajo en dicho proyecto declaran su frustración y que es claro que la tecnología para permitir el acceso a grandes conjuntos de datos no es tan avanzada como la tecnología para la creación y distribución de esos datos, incluso en el sector privado aún no se han implementado soluciones económicas comerciales debido a la complejidad y las necesidades de recursos de esta tarea. Los resultados no son muy buenos, una consulta enviada al sistema de recuperación tardaría 24 horas en proporcionar resultados.
Si esto pasa en la primera economía del mundo y creadora de la mayoría de esta tecnología que nos queda a nosotros.
Las grandes cantidades de datos, manejo, gestión, recuperación y difusión son sin duda un tema que deberemos abordar desde nuestra profesión, algo que ya nos afecta y para lo que no se avizora una solución cercana por el momento, sin duda los Bibliotecólogos tenemos bastante que decir y aportar en la solución. Quizás las herramientas de la Web semántica puedan aportar algo a la solución pero parecen todavia y pese al tiempo que se esta trabajando en esto, algo un poco lejano.

Saludos cordiales.

Comentarios