Libro blanco de IDC patrocinado por EMC El universo digital, diverso y en expansión acelerada Un pronóstico actualizado del crecimiento de la información en el mundo hasta 2011 Marzo de 2008 John F. Gantz, Director del proyecto Christopher Chute Alex Manfrediz Stephen Minton David Reinsel Wolfgang Schlichting Anna Toncheva El universo digital, diverso y en expansión acelerada Un pronóstico actualizado del crecimiento de la información en el mundo hasta 2011 3 RESUMEN EJECUTIVO Este documento, patrocinado por EMC, es una actualización del primer trabajo de IDC sobre el universo digital publicado en marzo de 2007.i En la actualización de este año, medimos una vez más el tamaño (más grande) y el crecimiento (más rápido) del universo digital y, al mismo tiempo, exploramos ciertas áreas que sólo nos habíamos limitado a mencionar la última vez. Como hicimos anteriormente, también tratamos de entender las repercusiones para el sector empresarial, el sector gubernamental y la sociedad en general. Éstas son algunas conclusiones clave: • El universo digital en 2007, con 2,25 x 1021 bits (281 exabytes o 281.000 millones de gigabytes), fue 10% más grande de lo que habíamos estimado. El redimensionamiento es consecuencia del crecimiento más rápido de las ventas de cámaras y televisores digitales, y de una mejor comprensión de la replicación de información. • Para 2011, el universo digital será 10 veces más grande que en 2006. • Tal como lo pronosticamos, en 2007 el volumen de información que se creó, capturó o replicó superó por primera vez la capacidad de almacenamiento disponible. No toda la información que se crea y transmite se almacena; sin embargo, para 2011, prácticamente la mitad del universo digital no tendrá una residencia permanente en un dispositivo de almacenamiento. • Entre los sectores de rápido crecimiento del universo digital se destacan los relacionados con la TV digital, las cámaras de vigilancia, el acceso a Internet en países emergentes, las aplicaciones basadas en sensores, los centros de datos que soportan "cloud computing" y las redes sociales. • La diversidad del universo digital se observa en la variabilidad del tamaño de los archivos, que van desde películas de 6 gigabytes para DVD hasta códigos de 128 bits de etiquetas de identificación por radiofrecuencia (RFID, por sus siglas en inglés). Como consecuencia del crecimiento de las tecnologías VoIP (voz mediante IP), sensores y RFID, la cantidad de "contenedores" de información electrónica (archivos, imágenes, paquetes, contenido de etiquetas) crece 50% más rápido que la cantidad de gigabytes. La información que se cree en 2011 se alojará en más de 20.000 billones (20x1015) de contenedores de este tipo, lo que representará un desafío colosal de gestión tanto para las empresas como para los consumidores. • De la parte del universo digital creada por consumidores, menos de la mitad corresponde a actividades de usuarios (fotografías tomadas, llamados realizados, correos electrónicos enviados), en tanto que el resto constituye una "sombra" digital (fotografías de vigilancia, historiales de búsqueda en Internet, registros de transacciones financieras, listas de direcciones de correos, etc.). • La participación de empresas en el universo digital presenta un sesgo marcado por industria, con poca correlación al PIB o a los gastos en TI de cada industria. La industria de las finanzas, por ejemplo, da cuenta de prácticamente el 20% de los gastos mundiales en TI, pero solamente del 6% del universo digital. Por su parte, la participación de las industrias de medios, entretenimiento y comunicaciones en el universo digital en 2011 será 10 veces mayor que su participación en el producto económico bruto mundial. • La perspectiva relacionada con el origen, el manejo y control de la información digital se mantiene intacta: aproximadamente el 70% del universo digital lo crean consumidores, pero las empresas son responsables de la seguridad, privacidad, confiabilidad y cumplimiento de normas del 85% de ese universo. Para hacer frente a esta continua y acelerada expansión del universo digital, tanto en tamaño como en complejidad, las organizaciones de TI deberán responder a tres imperativos principales: Primero. Deberán transformar sus relaciones actuales con las unidades de negocios. Las empresas deberán recurrir a todos los recursos humanos a su alcance para satisfacer las necesidades de creación, almacenamiento, gestión, seguridad, retención y eliminación de información. Enfrentarse al universo digital es algo más que sólo un problema técnico. Segundo. Deberán fomentar el desarrollo de políticas organizacionales de manejo y control de información: seguridad de información, retención de información, acceso a datos y cumplimiento de normas. Tercero. Deberán priorizar la incorporación de nuevas herramientas y normas a la organización, desde la optimización de medios de almacenamiento, la búsqueda de datos no estructurados y el análisis de bases de datos, hasta el uso compartido de recursos informáticos (virtualización) y herramientas de gestión informática y seguridad. Todo esto será necesario para que la infraestructura de información sea lo más flexible, adaptable y escalable posible. Muchas de estas herramientas ya existen, desde las tecnologías Web 2.0 y los discos de 1 terabyte hasta el software de búsqueda de datos no estructurados y la Web semántica, para dominar el universo digital. 4 convencional. Por ende, cuando el consumidor compra cámaras de resolución más alta o teléfonos con cámara, el impacto en el total de gigabytes capturados es algo mensurable. Una sola imagen de una cámara de cinco megapíxeles puede tener 40 megabytes sin comprimir (1,2 megabytes comprimida). EL UNIVERSO VISUAL En cierta forma, contemplar el universo digital es como contemplar el número de Avogadro. Es enorme. Más grande que cualquier cosa que podamos tocar, sentir o ver y, por ende, imposible de entender en contexto. Para los puristas, el número de Avogadro, o sea, el número de átomos de carbono en 12 gramosii, es 602.200.000.000.000.000.000.000 ó 6,022 x 1023. Y no, efectivamente, el universo digital no es tan grande. En 2007, la cantidad de "átomos" del universo digital, es decir, los bits o unos y ceros binarios que se crearon, capturaron, y replicaron ese año, equivalía a menos de un centésimo del número de Avogadro. Pero la cantidad de "átomos" digitales del universo digital ya es mayor que la cantidad de estrellas del universo. Y puesto que el universo digital se está expandiendo en un factor de 10 cada cinco años, en 15 años superará al número de Avogadro. Pero el tamaño y el continuo crecimiento exponencial del universo digital son sólo dos de sus características. Al igual que nuestro universo físico, es increíblemente diverso, tiene puntos de concentración y está sujeto a fuerzas misteriosas y desconocidas. Parece tener sus propias leyes físicas. La investigación de IDC muestra que el universo digital, es decir, la información que se crea, captura o replica de manera digital, llegaba en 2007 a 281 exabytesiii. En 2011, el volumen de información digital que se produzca durante el año, debiera ser prácticamente de 1800 exabytes, es decir, 10 veces lo que se produjo en 2006 (ver Figura 1). La tasa compuesta de crecimiento anual de aquí a 2011, según se prevé, será casi de 60%. Esto significa que en promedio la información crecerá 60% cada año hasta esa fecha. El tamaño del universo digital en 2007 (y 2006) supera en 10% el tamaño calculado en el trabajo del año pasado, y el crecimiento es algo mayor. Esto es consecuencia del crecimiento más rápido de lo previsto en cámaras digitales de resolución más alta, cámaras de vigilancia (especialmente en lugares como China y centros urbanos importantes), y en televisores digitales, y también a la mejora en los métodos para estimar el volumen de información replicada. El incremento en la resolución de las cámaras digitales y el crecimiento de las ventas de cámaras de vigilancia son factores importantes, ya que el universo digital, al menos en cantidad de gigabytes es predominantemente visual: imágenes, clips de videocámaras, señales de TV digital y almacenamiento de datos de vigilancia. La conversión de películas convencionales analógicas al formato digital prácticamente es cosa del pasado; el año pasado, el número de cámaras digitales y teléfonos con cámara en el mundo superó los 1.000 millones de unidades, y menos del 10% del total de imágenes estáticas capturadas corresponde a película Figura 1 Fuente: IDC, 2008 En el mundo de la vigilancia, la conversión a medios digitales está en sus primeros pasos. En su mayoría, las cámaras siguen siendo analógicas. Pero la producción de cámaras digitales conectadas en red se está duplicando de un año a otro. China está invirtiendo miles de millones en sistemas de seguridad de video para los Juegos Olímpicos y para la Feria Mundial de 2010; además, tiene una nueva política de "ciudades seguras" que exige cámaras de seguridad para 660 ciudades y pueblos, y 28.000 minas de carbón. La ciudad de Nueva York está tendiendo un "velo" de vigilancia para el Bajo Manhattan, a un costo de 90 millones de dólares. Los coches de la policía en muchas ciudades del mundo cuentan en la actualidad con cámaras de seguridad que pueden detectar hasta 200 placas de matrícula por hora. Por último, a medida que los sistemas de televisión en prácticamente todos los países del mundo se conviertan a la tecnología digital, los bits digitales cobrarán más y más fuerza. El año pasado, el número de televisores digitales en el mundo se duplicó y, hacia fines de 2011, probablemente supere los 500 millones de equipos. LA SOBRECARGA DE INFORMACIÓN COBRA FORMA FÍSICA Mientras los dispositivos y las aplicaciones que crean o capturan información digital crecen rápidamente, también lo hacen los dispositivos que almacenan información. La creación de 5 información y los medios disponibles para almacenarla son el yin y el yang del universo digital. Los medios de almacenamiento cada vez más económicos nos permiten tomar fotografías de alta resolución con nuestros teléfonos celulares; y esto a su vez, genera una demanda de más medios de almacenamiento. Las unidades de mayor capacidad nos permiten replicar más información, lo que a su vez facilita e impulsa el crecimiento de contenidos. El yin y el yang. EL ALMACENAMIENTO TAMBIÉN SUPERA LAS EXPECTATIVAS Cuando el año pasado hicimos nuestro pronóstico del universo digital, estimamos que se despacharían 1.082 exabytes de medios de almacenamiento durante los años 2007 a 2010. Esta vez, hemos aumentado nuestros estimados para el mismo período en prácticamente 10%, es decir, virtualmente 90 exabytes. Según nuestros cálculos, en 2007 todo el espacio vacío o utilizable en los discos rígidos, cintas, CD, DVD y memoria (volátil y no volátil) del mercado alcanzaba la cifra de 264 exabytes, muy cercana al volumen total de información creada o capturada (ver Figura 2). A partir de este punto, las dos cifras se separan. ¿Por qué? Por tres motivos principales. Primero. Protección de información personal. El segmento de consumo de almacenamiento que tuvo mucho mejor desempeño que el estimado por IDC a principios de 2007 fue el que corresponde a la protección de datos personales. La producción mundial de dispositivos de almacenamiento personal, también llamados unidades de discos rígidos externos, superó todas las expectativas en 2007. Según se prevé, para 2011, los dispositivos de almacenamiento personal consumirán más terabytes en unidades de discos duros que todos los demás segmentos, exceptuando las computadoras personales de escritorio. A medida que los consumidores participan más en la generación de los contenidos digitales del mundo, finalmente empiezan a entender el valor de su información y por ende la necesidad de preservarla en dispositivos más sofisticados. Figura 2 Segundo. Movilidad. Cada vez nos acostumbramos más a llevar nuestros medios de almacenamiento con nosotros: en computadoras portátiles, teléfonos móviles, iPods, asistentes personales (PDAs, por sus siglas en inglés), sistemas de posicionamiento global (GPS, por sus siglas en inglés), juegos y otros dispositivos electrónicos de computación. Los medios de almacenamiento en estado sólido, en forma de memoria flash, se están incorporando a una amplia gama de dispositivos computacionales. Y, si bien la memoria flash representa sólo un pequeño porcentaje de la capacidad total de almacenamiento despachada (1% en 2007, para llegar a 5% en 2011), nuestro nuevo pronóstico representa un aumento acumulado de 43% durante los años 2007 a 2010 con respecto a nuestro pronóstico inicial del año pasado. Fuente: IDC, 2008 ¿Cómo debe interpretarse esta brecha? Evidentemente, no toda la información que se crea es lo suficientemente importante para que sea almacenada por algún período de tiempo determinado, ¿no es así? Así es. Buena parte del universo digital es transitorio, programas de radio y televisión se escuchan pero no se graban, paquetes de llamados de voz que no se necesitan una vez finalizado el llamado, imágenes que se capturan por un tiempo y luego se borran por la superposición de datos de grabadores de cámaras de vigilancia. Tercero. Los efectos secundarios del almacenamiento móvil. Los teléfonos móviles, sistemas de posicionamiento global (GPS, por sus siglas en inglés), asistentes personales (PDAs, por sus siglas en inglés) y demás dispositivos que cuentan con almacenamiento local también requieren acceso a medios de almacenamiento en red para integrar un mundo cada vez más conectado. Éste es uno de los motivos por el cual las empresas se enfrentan a un aumento anual de 50% en sus necesidades de almacenamiento. Pero ésta es la primera vez que nos encontramos en una situación en que no podemos almacenar toda la información que creamos, aunque quiseramos hacerlo. Esta brecha entre creación y almacenamiento, sumada a las exigencias normativas cada vez mayores en cuanto a retención de la información, presionará cada vez más a los responsables de desarrollar estrategias de almacenamiento, retención y eliminación de información. 6 LA LUCHA CON LA DIVERSIDAD LA HUELLA DEL UNIVERSO DIGITAL EN EL MEDIO AMBIENTE El universo digital no solo puede ser percibido en términos de gigabytes; existe otra perspectiva. ¿Por qué no pensar en las cosas que hay en el universo digital? Las equivalentes a galaxias, estrellas, planetas, asteroides y motas de polvo cósmico. El crecimiento del universo digital, que se multiplicará por diez en cinco años, tendrá un impacto apreciable sobre el medio ambiente, en términos de consumo de energía y de residuos electrónicos. Los residuos electrónicos ya se están acumulando a un ritmo de más de 1.000 millones de unidades por año, principalmente en forma de teléfonos móviles, pero también dispositivos electrónicos digitales y computadoras personales. La migración a la TV digital significará que muchos más televisores y receptores de cable analógicos, además de DVD, llegarán a los depósitos de residuos, cuyo volumen se duplicará para 2011. Es más difícil determinar la evolución del consumo de energía, especialmente porque los fabricantes están desarrollando chips que ahorran energía y los usuarios están instalando sistemas que también ahorran energía, entre los que se destacan nuevos sistemas de refrigeración, y aire acondicionado y nuevos sistemas de gestión (ver Figura 3). Sin embargo, en un estudio sobre los costos de energía y refrigeración de servidores realizado en 2006, IDC constató que los costos de energía y refrigeración están aumentando rápidamente con la llegada de nuevos servidores, más densos que los anteriores. El consumo de energía, que en 2.000 era de 1 kW por bastidor de servidor, en la actualidad se acerca a 10 kW. Los clientes que instalan nuevos centros de datos prevén un consumo de 20 kW por bastidor. En la actualidad, la "TI ecológica" (Green IT, en inglés) es un tema muy de moda en los círculos de TI. Con la expansión del universo digital, será necesario pasar rápidamente a la acción. El universo digital no solo puede ser percibido en términos de gigabytes; existe otra perspectiva. ¿Por qué no pensar en las cosas que hay en el universo digital? Las equivalentes a galaxias, estrellas, planetas, asteroides y motas de polvo cósmico. Algunas de estas cosas son grandes, otras son pequeñas. La copia maestra de una película digital archivada en la "National Academy of Arts and Sciences" puede llegar a ser de un terabyte. Un DVD puede tener 5 gigabytes. Un correo electrónico unos pocos kilobytes. Una etiqueta RFID apenas 128 bits. En nuestro universo físico, el 98,5% de la masa conocida es invisible, compuesta de polvo interestelar o lo que los científicos llaman "materia oscura ".iv En el universo digital, tenemos nuestra propia forma de materia oscura: las señales minúsculas de sensores y etiquetas RFID y los paquetes de voz que representan menos del 6% del universo digital en términos de gigabytes, pero dan cuenta de más del 99% de las "unidades", los "contenedores" de información o los "archivos" que lo componen (consulte la Figura 4). La información que se cree en 2011 estará alojada en más de 20.000 billones (20 x 1015) de "archivos". Figura 4 Figura 3 Fuente: IDC, 2008 Esto no sería un problema si no fuera que los custodios del universo digital, es decir, los técnicos y gerentes de centros de datos que trabajan en empresas, compañías de teléfonos, Fuente: IDC, 2008 7 proveedores de servicios de Internet, empresas de entretenimiento, etc., no tuvieran que registrar y hacer un seguimiento de estos pequeños paquetes y señales. De esta forma, Deben decidir si, cuándo y cómo los almacenan, garantizan su seguridad y ajustan los procesos, a menudo en una fracción de segundo, en base al contenido, por pequeño que sea. relaciones con inversionistas, los directores generales y los especialistas en relaciones públicas entiendan esta responsabilidad empresarial, pero los técnicos a cargo de los centros de datos posiblemente no cuenten con los conocimientos necesarios para reflejar esta responsabilidad en las políticas, estrategias de almacenamiento, o prácticas de seguridad de información de los centros de datos. (Consulte las secciones Lecciones para la empresa y El salto a la potencia de 10 siguiente que aparecen más adelante en este documento). La otra cara del problema corresponde al 94% restante del universo digital, donde la mayor parte del contenido es opaco y no está estructurado dentro de un formato de archivo. La búsqueda de significado en el contenido de datos no estructurados, como imágenes, clips de video, documentos, y los números y caracteres de las bases de datos es la ciencia de crecimiento más rápido del universo digital. EL CALEIDOSCOPIO DE LA INDUSTRIA Basta con hacer algunas sencillas estimaciones para dividir el universo digital en dominios por industria. Pero, al hacerlo, veremos un universo que no se parece a la economía, los recursos humanos o la población del mundo. En cambio, el universo digital sigue reglas propias. EL DILEMA DE LAS EMPRESAS Aunque ya lo mencionamos el año pasado, sigue existiendo un dilema crítico en el centro mismo del universo digital. Es el siguiente: Consideremos, por ejemplo, los servicios financieros, una industria que es sinónimo de uso intensivo de cálculos numéricos. Es sabido que las empresas de corretaje usan las técnicas más avanzadas de computación, y que las compañías de seguros llevan registros muy meticulosos. Los equipos de los sistemas bancarios registran transacciones por billones de dólares diarios, equivalentes al producto económico bruto anual del mundo. Ésta es una de las razones que explican porque una industria que genera el 6% de la producción bruta mundial compre el 20% de los equipos de cómputo del mundo. Si bien son personas, consumidores y personal de oficina e informática alejados de los centros de datos los que crean, capturan o replican 70% o más del universo digital, son las empresas las que, en algún momento, son responsables del 85% de ese universo. Esta responsabilidad incluye seguridad de información, protección de privacidad, protección de derechos de autor, filtro de material obsceno, detección de fraude, creación de informes y registros del contenido, búsqueda y recuperación, y eliminación. Sin embargo, y a pesar de este despliegue de procesamiento de información, la industria de servicios financieros da cuenta en la actualidad de apenas el 6% del universo digital y caerá a 3% para 2011. El porqué de esta baja es simple: no usa imágenes. Los ejemplos abundan. Los consumidores cargan clips de video en YouTube, y Viacom demanda a Google por mil millones de dólares. Sesenta millones de consumidores intercambian MP3 "pirateados" por las redes de comunicación entre pares, como Kazaa, LimeWire, y lo que fue Napster, y la industria de la música exige a los proveedores de servicios de Internet que revelen las direcciones IP de los consumidores. Aparece en Internet un video que muestra a una pareja besándose en el metro de Shanghai y la empresa de transporte metropolitano de Shanghai inicia un juicio. Linden Lab lanza un mundo virtual popular (Second Life) donde los visitantes crean una economía que se basa en dólares virtuales. La cancelación de la cuenta de un usuario que había invertido en terrenos virtuales da lugar a una demanda por dólares reales. El gobierno de EE.UU. pone a disposición de sus soldados unidades de memoria USB para luego comprobar que se las vende en el mercado negro de Kabul, con datos confidenciales que no han sido borrados. Figura 5 IDC estima que menos del 5% del universo digital emana realmente de servidores de centros de datos, y apenas el 35% emana de las empresas en general, mayormente de empleados en sus escritorios, en tránsito, o trabajando en su casa (consulte la Figura 5). Probablemente los abogados corporativos, el personal de Fuente: IDC, 2008 8 En el extremo opuesto del espectro están las industrias de la teledifusión, de medios y de entretenimiento, con alrededor del 4% de los ingresos mundiales, pero que generan, administran o están a cargo, de una forma u otra, del 50% del universo digital. En los próximos 10 años, cuando prácticamente todos los países ya usen TV digital y la mayor parte de las películas sea digital, ese porcentaje será aún mayor (ver Figura 6). sensores incorporados al sistema de distribución y en los medidores, transferencia de información de banda ancha a lo largo de las líneas de alta tensión, y bases de datos y recursos de análisis activo para hacer ajustes del sistema mientras está en uso. • El sector gubernamental y el de atención médica están realizando inversiones importantes en sistemas de imágenes: vigilancia y archivos de mapas en el sector gubernamental; sistemas de imágenes médicas y sistemas de archivos clínicos digitales en el sector de atención médica. En el sector de asistencia médica, las bases de datos de imágenes crecen por dos motivos: (1) Aumento de imágenes por año (más pacientes, más escaneos) y (2) conversiones de imágenes de películas archivadas. Un hospital importante, como Cleveland Clinic, podría tener ahora una base de datos del orden de petabytes en imágenes almacenadas y estaría agregando hasta tres terabytes por semana. Otras industrias también tienen sus propios vínculos únicos con el universo digital: • La industria manufacturera está desplegando rápidamente cámaras digitales de vigilancia, por un lado, y sistemas basados en sensores y seguimiento por RFID por el otro, además del uso generalizado de CAD/CAM (diseño y manufactura asistidos por computadora) y visualización. • El sector de distribución minorista/mayorista, en este caso junto con la industria del transporte, también ha implementado vigilancia por video y etiquetas RFID. Además, el rápido crecimiento de los sistemas de información de clientes se refleja en las bases de datos corporativas, cada vez más abultadas. Wal-Mart, que en la actualidad actualiza sus bases de datos de clientes a cada hora, agrega 1.000 millones de registros de datos nuevos por hora a un depósito de datos que ya tiene 600 terabytes y sigue creciendo.v • La industria del petróleo y gas ha estado desarrollando lo que se llama el "yacimiento digital", donde los sensores monitorean la actividad en el punto de exploración y la boca de pozo se conecta a sistemas de información en la sede central, respaldando las decisiones operativas y de exploración en tiempo real. Chevron ha revelado que acumula datos a un ritmo de dos terabytes diarios. El conjunto de datos geológicos brutos de un yacimiento de petróleo podría alcanzar los 200 terabytes. Figura 6 Asimismo, existen nichos únicos del universo digital dignos de mención que se pueden vincular a entidades únicas. YouTube difunde 100 millones de videos al día, lo que representa una parte del universo digital prácticamente equivalente a la totalidad de las imágenes médicas. El Centro de Ciencias y Observación de Recursos de la Tierra (Center for Earth Resources Observation and Science) del gobierno de EE.UU. tiene archivos de tres petabytes, en su mayoría fotografías aéreas e imágenes satelitales, y crece a un ritmo de dos terabytes diarios. Las campañas de digitalización de bibliotecas y archivos, si bien son elementos pequeños de la totalidad del universo digital, todos los días añaden terabytes al universo digital. Cabe mencionar también el nuevo "Gran colisionador de hadrón" (LHC, Large Hadron Collider) en CERN, la organización europea de investigación nuclear en Suiza, que este verano empezará a trabajar en red. Cuando se realiza un experimento, un sistema de sensores tendido en un plano del tamaño de una piscina recopilará datos de cuatro detectores a medio petabyte por segundo cada uno, filtrará y eliminará prácticamente todas las señales y luego las Fuente: IDC, 2008 • En la industria de servicios públicos se habla de transformar los sistemas de distribución de electricidad en "redes inteligentes" con millones y hasta miles de millones de 9 UN DÍA EN LA VIDA DE UN MENSAJE DE CORREO ELECTRÓNICO La forma en que el universo digital se alimenta de si mismo puede observarse en la huella digital que se crea por un solo correo electrónico que se envíe a un grupo de cuatro personas; el ejemplo se basa en una infraestructura de correo electrónico similar a la de IDC (consulte la Figura 7). El correo electrónico mismo es pequeño, pero lleva un archivo adjunto de 1 MB. Si el correo electrónico es enviado a cuatro personas, representaría 5 x 1,1 MB, ¿no es así? El original y cuatro copias, ¿de acuerdo? Lamentablemente, no. En primer lugar, tenemos el Figura 7 documento mismo almacenado en la máquina local, al que se suma el correo electrónico que contiene el documento. En esta infraestructura, se conservan copias de todos los mensajes en el servidor central de correo electrónico que, para garantizar la disponibilidad permanente del sistema, incluye un servidor redundante. Todos los días se envía a un servidor una copia de respaldo de los archivos del escritorio, donde se encuentra el documento original. Posteriormente, se envían a una cinta copias de respaldo de los servidores, que se guardan en un sitio exterior. Nuestro mensaje original de correo electrónico, de 1,1 MB, tiene una huella equivalente a ocho veces el tamaño del mensaje mismo. Agreguemos ahora las copias locales y de respaldo del mensaje enviado a cuatro colegas, y la huella será 30 veces más grande que el mensaje original. Fuente: IDC, 2008 A esto se añaden todos los datos temporales que se crean cuando los sistemas de correo electrónico y de respaldo envían datos de ida y vuelta a través de las redes locales y de largo alcance. Asimismo, durante la transmisión se introduce sobrecarga de comunicaciones de todo tipo: datos de señalización, encabezados y direcciones de paquetes, códigos de seguridad, cachés del enrutador (Router, en inglés) e información de rastreo. En este caso, no cabe duda de que el estimado es incierto, pero está dentro del orden de magnitud. Existen técnicas para deduplicar correos electrónicos redundantes y copias múltiples de documentos, pero su uso todavía no se ha generalizado. Mientras tanto, un simple correo electrónico puede tener una sombra muy larga. difundirá en terabytes por segundo a una red de información. Un solo experimento, el "Solenoide de muón compacto" (CMS, Compact Muon Solenoid), recibirá datos de entrada comprimidos a 40 terabytes por segundo y almacenará un megabyte por segundo.vi Se prevé que el experimento se desarrolle 100 días por año, 24 horas por día. Esto significa más de 300 exabytes de datos de entrada por año. El LHC creará su propio universo digital. digitalmente toda su vida. A principios de año, había acumulado 150 gigabytes de registros, sin contar los programas de televisión ni las películas que vió. ¿Qué significa esto para nosotros? ¿Para usted? En 2007, el universo digital contenía 281.000.000.000 de gigabytes, lo que representa unos 45 gigabytes por persona en el planeta. SU SOMBRA DIGITAL Sin embargo, en 2007, cuando IDC desarrolló el "Personal Digital Footprint Calculator" (calculador de la huella digital personal), el cual fue lanzado en marzo de 2008,vii descubrimos En el documento del año pasado, hablamos del intento de Gordon Bell, destacado personaje de la industria, de registrar 10 • Las organizaciones típicas aceptan las conclusiones del estudio, ya sienten los problemas vinculados a la gestión de almacenamiento y saben que estos problemas se agravarán; en su mayoría, recién empiezan a implementar la gestión del ciclo de vida de información (ILM, por sus siglas en inglés) como estrategia de gestión de información a nivel de toda la empresa. • Los ejecutivos de sistemas de información entienden las repercusiones en cuanto a seguridad y privacidad del crecimiento del universo digital, pero no saben cómo lograr que el resto de la empresa los entienda. • La mayoría de los ejecutivos de sistemas de información y profesionales de datos no están seguros del cambio que producirá el carácter cambiante del universo digital en su relación con los departamentos que son sus usuarios finales, y que deben sumarse al esfuerzo de clasificar, gestionar, y garantizar la seguridad de la información que llega a la organización de las fuentes más diversas. • Son pocos los que están dispuestos a aceptar nuevos tipos de datos, como los paquetes VoIP, los videos de vigilancia y la información que aportan sensores en tiempo real, e incorporarlos a su dominio de gestión de información; son pocos los que entienden el impacto potencial sobre la arquitectura de información y el cómputo. La Figura 8 presenta una perspectiva única del universo basada en el grado en que la información que contiene puede estar sujeta a requisitos significativos de seguridad; sujeta a requisitos legales y de cumplimiento de normas como la obtención de pruebas en Internet, la Ley sobre seguridad y transferibilidad del seguro de salud (HIPAA, por sus siglas en inglés), o la Ley Sarbanes-Oxley; o bien puede ser lo suficientemente valiosa como para que se almacene durante 10 años o más. que sólo alrededor de la mitad de la huella digital se relacionaría con acciones individuales, como tomar fotografías, hacer llamadas sobre VoIP, cargar videos a YouTube, descargar contenidos digitales, etc. Al resto lo hemos llamado contenido "ambiente". Son imágenes digitales suyas que residen en cámaras de vigilancia y en todo tipo de registros bancarios, de agencias de corretaje, comercios minoristas, aerolíneas y bases de datos médicas. Es información sobre búsquedas en Internet y datos generales de respaldo. Son copias de escaneos realizados en el hospital. En otras palabras, es información acerca de usted en el ciberespacio. Su sombra digital, se podría decir. Tener una sombra digital no es necesariamente malo. Le permite a proveedores como Amazon recomendarle nuevos libros, les indica a los demás que pueden confiar en usted para una transacción en eBay, y ayuda a familiares que han perdido su rastro a encontrarlo. Pero también tiene su aspecto negativo. De acuerdo con noticias publicadas, un ciudadano del Reino Unido donde, según estimados, existen 5 millones de cámaras de vigilancia instaladas, debe atenerse a que su imagen se capture 300 veces al día.viii Esto no ha sido bien recibido por muchos ciudadanos británicos, a tal punto que un grupo clandestino llamado "Conductores contra la detección" ha empezado a quemar cámaras de tráfico.ix Cuando Facebook empezó a rastrear automáticamente las compras por Internet realizadas por sus miembros, y a compartir esos datos con terceros, los usuarios se rebelaron, y aún no se han resuelto los problemas relacionados con las dificultades que tienen los usuarios inactivos para retirar su información personal del sitio.x En septiembre último, los conductores de taxi de Nueva York hicieron huelga para protestar contra planes de seguimiento de vehículos por GPS.xi Figura 8 La idea de la sombra digital pasa de peculiar o irritante a temible, cuando se considera el riesgo de robo de identidad. El robo de información a TJX sobre compras con tarjetas de crédito, incluso números de tarjeta y de licencias de conducir, por parte de hackers que trabajaron durante años, expuso casi 50 millones de tarjetas de crédito y débito al peligro de robo. De acuerdo con el estudio anual de 2007 de Ponemon Institute: El costo de una brecha de datos, en la actualidad el costo de las brechas de seguridad para las compañías es de prácticamente 200 dólares por cada registro de cliente afectado. LECCIONES PARA LA EMPRESA Desde la difusión del estudio de 2007, IDC ha presentado los resultados a miles de ejecutivos de información y de ventas en cientos de conferencias y reuniones. El contacto con estos ejecutivos nos ha enseñado que: Fuente: IDC, 2008 11 LO QUE ABARCAMOS EL AÑO PASADO Este documento es una actualización del trabajo publicado el año pasado (visite www.emc.com/digital_universe) con el objetivo de actualizar el pronóstico cuantitativo del universo digital, y cubrir algunas nuevas áreas. La intención es que sirva de complemento del documento original. Algunas de las áreas que se abarcan con mayor detalle en el documento del año pasado son las siguientes: • Explicación de bits y bytes • Datos no estructurados • Analogías del universo digital: su equivalente en libros y elefantes • • El crecimiento del correo electrónico, Internet, y las comunicaciones por banda ancha "Cumplimiento de Normas", las nuevas reglas que imponen la necesidad de agregar estructura y coherencia a la información empresarial • Gestión de ciclo de vida de la información • Conservación digital • Deduplicación • La conversión de imágenes, comunicaciones de voz y TV, de analógicas a digitales • El universo digital por región clínicas de Pekín para adictos a Internet exhaustos,xiii el control del tráfico en Singapur y los calzados deportivos que hablan a los oficiales de la Maratón de Nueva York. No hace falta guardar o archivar cada imagen de los teléfonos con cámara pero, en cambio, es posible que la información sobre cuentas y los registros de YouTube estén sujetos a la ley de obtención de pruebas en Internet. Muchos correos electrónicos que se envían desde el interior de los firewalls corporativos estarán sujetos a ciertas reglas sobre retención o presentación como pruebas. Se sabe que los historiales de búsqueda de los motores de búsqueda se han exigido como prueba por el gobierno de EE.UU.xii No obstante, para los que hemos llamado "custodios del universo digital", lo mejor será que el mismo no evolucione como una novela de ciencia ficción. Debe evolucionar como un texto de ingeniería, preciso, controlable y matemáticamente predecible. Vemos las fuerzas amplias que empujan el universo digital hacia el exterior, como movilidad, interactividad, información en tiempo real, contenido creado por el usuario, "cumplimiento de normas", nuevos formatos de información y almacenamiento, almacenamiento y más almacenamiento. Lo importante en este caso no son los números en sí, sino su orden de magnitud. Puesto que está trazado sobre un eje porcentual, el gráfico no presenta el crecimiento bruto en cada categoría, el cual es mucho más rápido que el crecimiento global del universo digital de 10 veces en cinco años. Pero, para hacer frente a tantos cambios vertiginosos, las organizaciones de TI deberán responder a tres imperativos principales: EL SALTO A LA SIGUIENTE POTENCIA DE 10 Primero. Transformar sus relaciones existentes con las unidades de negocios. Estos son los grupos que clasificarán la información, establecerán las políticas de retención, tratarán con los clientes cuyos datos están en manos de la compañía y tratarán con el público en caso de pérdida, brecha, violación o simplemente manejo indebido de datos. En la actualidad, hay compañías de primer nivel que están probando métodos de gestión que permiten facturar el uso de servicios informáticos basados en métricas de negocios internas y en los contactos rutinarios de los sistemas con clientes externos. El universo digital será 10 veces más grande dentro de cinco años. ¿Qué haremos al respecto? Como sociedad, nuestra experiencia con el universo digital evolucionará, de alguna manera, como una novela de ciencia ficción. En menos de cinco años, habrá 2.000 millones de personas en Internet y 3.000 millones de usuarios de teléfonos móviles. Todo estará interconectado; todo creará y consumirá contenidos a un ritmo alarmante. Hoy en día ya vemos fragmentos del futuro en los mundos virtuales de Second Life y Club Penguin, la difusión de mensajes SMS a Twitter.com, las 12 Segundo. Fomentar el desarrollo de políticas organizacionales en materia de seguridad de información, retención de información, acceso a datos y cumplimiento de normas. Extender estas políticas a socios comerciales. Obligar a la organización a exigir capacitación constante en todas estas áreas. Figura 9 Tercero. Priorizar la incorporación de nuevas herramientas y estándares para la organización. La optimización del almacenamiento, la búsqueda de datos no estructurados, el análisis de bases de datos, el uso compartido de recursos informáticos (virtualización), y las herramientas de gestión informática y seguridad, serán elementos necesarios para que la infraestructura de información sea lo más flexible, adaptable y escalable posible. Los cambios que se generen por el universo digital serán rápidos y drásticos. Pero ya contamos con muchas de estas herramientas, desde las tecnologías Web 2.0 y los discos de 1 terabyte hasta el software de búsqueda de datos no estructurados, y la Web semántica, para adaptarnos a estos cambios. Fuente: IDC, 2008 Lo importante, y nuestro desafío, será transformar el crecimiento de la información en crecimiento económico. MEDIOS DE ALMACENAMIENTO DISPONIBLES IDC, como práctica de rutina, realiza el seguimiento de los terabytes de almacenamiento en disco producidos cada año, por región, medio y aplicación. Para determinar el almacenamiento disponible en unidades de disco duro, los analistas de almacenamiento de IDC estimaron el uso de almacenamiento correspondiente a la capacidad producida en años anteriores y agregaron el resultado a la producción del año en curso. METODOLOGÍA Nuestro enfoque básico para dimensionar el universo digital ha sido: • Desarrollar un pronóstico sobre la base instalada de cualquier clase del total aproximado de 30 clases de dispositivos o aplicaciones que podrían capturar o crear información digital. En el caso de memoria flash no volátil y óptica, desarrollamos tasas de capacidad instalada por dispositivo y algoritmos que permiten estimar tasa de uso de esa capacidad y la tasa de sobreescritura. Con respecto a los medios ópticos, constatamos que hay mucho más almacenamiento pre-grabado que almacenamiento sobrescrito por los usuarios. • Estimar cuántas unidades de información (archivos, imágenes, canciones, minutos de video, llamados per capita, paquetes de información, etc.) se crearon en un año. • Convertir las unidades de información en megabytes en base a supuestos sobre resolución, compresión y uso. • Estimar el número de veces que podría replicarse una unidad de información, para compartirla o almacenarla. Buena parte de esta información corresponde a las investigaciones en curso de IDC (ver Bibliografía). La Figura 9 presenta una lista de los tipos de dispositivos o categorías de información que hemos examinado. 13 • Pronóstico mundial de consumidores de contenido y archivos de video 2007-2011: La Biblia del video (IDC N° 210035, diciembre de 2007) BIBLIOGRAFÍA • Pronóstico y análisis mundial de las pantallas de plasma 2007-2011: Un mero juego de precios (IDC N° 206717, mayo de 2007) • Pronóstico mundial 2007-2011 y participación en las ventas de videocámaras en 2006 (IDC N° 208937, octubre de 2007) • Pronóstico y análisis mundial de LCD TV 2007-2011: Unidades en explosión, ingresos planos (IDC N° 206609, mayo de 2007) • Pronóstico mundial de almacenamiento de videocámaras digitales 2007-2011 (IDC N° 209603, noviembre de 2007) • Pronóstico mundial de DVR 2007-2011 (IDC N° 210061, diciembre de 2007) • Actualización del pronóstico mundial de cámaras digitales 2007-2011 (IDC N° 208141, agosto de 2007) • Pronóstico mundial del consumidor digital semiconductor 2007-2011 (IDC N° 210095, diciembre de 2007) • Pronóstico mundial 2007-2011 y participación en las ventas 2006 de cámaras para computadoras (IDC N° 205559, febrero de 2007) • Pronóstico y análisis de receptores de cable digitales en la región del Asia Pacífico (sin Japón) 2007-2011: Revisión de 2006 (IDC N° AP654111P, enero de 2008) • Pronóstico mundial de teléfonos con cámara y video 20072011 (IDC N° 208561, septiembre de 2007) • Pronóstico mundial y de EE.UU. de receptores de TV cable digital pagada 2006-2010 (IDC N° 204338, noviembre de 2006) • Pronóstico mundial de cámaras en red 2007-2011 (IDC N° 205402, enero de 2007) • Pronóstico mundial de escáners de alta velocidad en imágenes de documentos 2006-2010 (IDC N° 204929, enero de 2007) • Pronóstico y análisis de suscriptores de TV cable digital, satelital y de TV por IP en EE.UU. 2007-2011 (IDC N° 206623, mayo de 2007) • Pronóstico mundial de escáners planos 2006-2010 (IDC N° 203000, agosto de 2006) • Pronóstico y análisis de las tecnologías de TV cable y satelital digitales pagadas en Europa occidental 2007-2011 (IDC N° KD06P, noviembre de 2007) • Pronóstico y análisis de escáners planos en EE.UU. 20072011 (IDC N° 207849, julio de 2007) • Pronóstico y análisis de la TV digital en China 2007-2011 (IDC N° CN656109P, mayo de 2007) • Encuesta de imágenes móviles en EE.UU. 2007 (IDC N° 207847, agosto de 2007) • Encuesta al consumidor de TV de IDC 2007, Parte 1: Demografía y preferencias actuales de TV (IDC N° 209546, diciembre de 2007) • Pronóstico mundial de software de búsqueda y descubrimiento 2007-2011 (IDC N° 206148, marzo de 2007) • Encuesta al consumidor de imágenes digitales en EE.UU. 2007 (IDC N° 207516, julio de 2007) • Acceso unificado a contenidos y datos: Cómo desarrollar una visión en 360 grados de la empresa (IDC N° 34836, febrero de 2006) • Pronóstico mundial de las imágenes digitales 2007-2011: La Biblia de archivos de imagen (IDC N° 209873, diciembre de 2007) • Acceso unificado a contenidos y datos: Cómo las tecnologías de base de datos y de integración de datos abarcan el contenido (IDC N° 204843, diciembre de 2006) • Pronóstico mundial de las imágenes digitales 2007-2011: La Biblia para capturar y compartir imágenes (IDC N° 209738, diciembre de 2007) • Pronóstico y análisis de servicios de música inalámbricos en EE.UU. 2007-2011 (IDC N° 207304, junio de 2007) • Pronóstico mundial de ranuras de tarjetas de memoria para cámaras digitales 2007-2011 (IDC N° 209316, noviembre de 2007) • Pronóstico y análisis mundial y en EE.UU. de reproductores multimedia portátiles 2007-2011 (IDC N° 206016, marzo de 2007) 14 • Pronóstico de la música en dispositivos móviles en EE.UU. 2007-2011 (IDC N° 207275, junio de 2007) • Pronóstico y análisis mundial de periféricos de funciones múltiples 2007-2011 (IDC N° 208293, septiembre de 2007) • Pronóstico y análisis de servicios de música inalámbricos en EE.UU. 2007-2011 (IDC N° 207304, junio de 2007) • Pronóstico mundial de centrales privadas conectadas a la red pública IP y telefonía IP con software de escritorio 20072011: ¿Es la era de las comunicaciones unificadas? (IDC N° 206112, marzo de 2007) • Pronóstico y análisis mundial de conexiones de punto a multipunto con video habilitado 2007-2011: Video para llevar (IDC N° 208459, septiembre de 2007) • Pronósticos de los servicios de voz mediante IP residenciales en EE.UU. 2007-2011: La carrera está comenzando (IDC N° 208334, septiembre de 2007) • Pronóstico de software de gestión de almacenamiento jerárquico y de archivos 2007-2011: Retención, conservación, optimización y reutilización (IDC N° 206226, abril de 2007) • Pronóstico y análisis de dispositivos portátiles de voz por IP residenciales en EE.UU. 2006-2010 (IDC N° 204690, diciembre de 2006) • Pronóstico mundial de software, hardware y servicios de seguridad de TI 2007-2011: Perspectiva amplia (IDC N° 210018, diciembre de 2007) • Desmitificación del yacimiento digital (IDC N° EI202344, julio de 2006) • Pronóstico mundial del uso de correo electrónico 2007-2011: El resurgimiento del correo ser hace sentir (IDC N° 206038, marzo de 2007) • Pronóstico mundial del gasto en energía y enfriamiento de servidores 2006-2010 (IDC N° 203598, septiembre de 2006) • Pronóstico mundial 2007-2011 y participación en las ventas 2006 de aplicaciones de archivado de correo electrónico: Optimización del almacenamiento, administración de casillas y retención de registros para inversiones de pruebas en Internet e impulso de la observancia (IDC N° 206729, mayo de 2007) • Más allá de la expectación: El futuro de la red inteligente (IDC N° EI202543, julio de 2006) • Utilidades inteligentes: El futuro de las redes eléctricas (IDC N° EIOS01P, noviembre de 2007) • Actualización del pronóstico mundial de sistemas de almacenamiento en disco 2007-2011 (IDC N° 209490, diciembre de 2007) • Pronóstico mundial de la infraestructura de observancia 2007-2011: Infraestructura de la información de observancia, privacidad de datos y gasto en el respaldo de la gestión de riesgos y observancia de TI (IDC N° 209257, noviembre de 2007) • Actualización del pronóstico mundial de unidades de disco duro 2007-2011 (IDC N° 209583, noviembre de 2007) • Actualización mundial de demanda y suministro de memorias NAND Flash 2Q07-4Q08 y 2007-2011 (IDC N° 208784, octubre de 2007) • Pronóstico mundial de aplicaciones de mensajería instantánea y productos de gestión para empresas 2007-2011: La manía por las comunicaciones unificadas pone el acento en la mensajería instantánea para empresas (IDC N° 209596, diciembre de 2007) • Actualización de la demanda y el suministro mundial de memorias DRAM 2Q07-4Q08 y 2007-2011 (IDC N° 208785, octubre de 2007) • Pronóstico y análisis mundial de hardware y software para consolas de videojuegos 2007-2011: La nueva era de listo para jugar (IDC N° 205659, febrero de 2007) 15 OTRAS FUENTES DE DATOS NOTAS FINALES • IDC Worldwide Black Book i www.emc.com/digital_universe. • IDC Worldwide Telecom Black Book ii El número de Avogadro, en átomos, se refiere al número de átomos en una masa del tamaño de la masa de la sustancia en gramos. Para obtener más información, visite http://en.wikipedia.org/wiki/Avogadro_constant. iii Un exabyte equivale a 1.000 millones de gigabytes, y un gigabyte a 1.000 millones de bytes. Un byte está compuesto de 8 bits digitales, cada uno de los cuales toma un valor de cero o uno. Normalmente, un byte codifica una letra, un número o un carácter especial del sistema numérico o alfabeto occidental. iv http://en.wikipedia.org/wiki/Dark_matter. v Charles Babcock, "Data, Data, Everywhere," InformationWeek, 9 de enero de 2006. vi Graham P. Collins y entrevistas del autor con personal del CERN, "Large Hadron Collider: The Discovery Machine," Scientific American, febrero de 2008. vii El calculador de la huella digital personal permite a las personas completar un cuestionario simple para establecer su propia huella digital. Se lo puede consultar y descargar de www.emc.com/digital_universe. viii http://www.newstatesman.com/200610020022. ix http://blog.wired.com/sterling/2007/12/burningbritish.html. x Maria Aspan, "How Sticky Is Membership on Facebook?" The New York Times, 11 de febrero de 2008. xi http://www.monthlyreview.org/mrzine/brenner070907.html. xii Hiawatha Bray, "Google Faces Order to Give Up Records," The Boston Globe, 15 de marzo de 2006. xiii "Beijing Clinic Ministers to Online Addicts," MSNBC, julio de 2005, de Associated Press. • IDC Worldwide PC Tracker • IDC Worldwide Server Tracker • IDC Worldwide Storage Tracker • IDC Worldwide Internet Commerce Market Model • IDC Worldwide Smart Handheld Device Tracker 16 Acerca de IDC IDC es el principal proveedor mundial de inteligencia de mercado, servicios de asesoría y eventos para los mercados de tecnologías de la información, telecomunicaciones y tecnología de consumo. IDC ayuda a los profesionales de TI, ejecutivos de empresas y a la comunidad de inversores a tomar decisiones basadas en hechos sobre adquisiciones tecnológicas y estrategias comerciales. Más de 1.000 analistas de IDC ofrecen su conocimiento mundial, regional y local sobre oportunidades y tendencias tecnológicas e industriales en más de 90 países de todo el mundo. Desde hace más de 43 años, IDC proporciona información estratégica para ayudar a sus clientes a alcanzar sus objetivos comerciales clave. IDC es una filial de IDG, la empresa líder del mundo en tecnología de medios, investigación y eventos. Encontrará más información sobre IDC visitando www.idc.com. AVISO SOBRE DERECHOS DE AUTOR Publicación externa de información y datos de IDC. El uso de cualquier información de IDC para publicidad, comunicados de prensa o material de promoción requiere la aprobación previa y por escrito de IDC. Un borrador del documento propuesto se debe adjuntar a los pedidos de aprobación. Encontrará más información sobre los servicios de suscripción y consultoría de IDC visitando www.idc.com. Para consultar una lista de oficinas de IDC en todo el mundo, visite www.idc.com/offices. Copyright 2008 IDC. Prohibida la reproducción a menos que sea autorizada. Todos los derechos reservados. 17 NOTAS 18 Global Headquarters: 5 Speen Street • Framingham, MA 01701 508.872.8200 www.idc.com