Los científicos de datos necesitan herramientas en la nube para ser más eficaces
01 de febrero 2018
Víctor Carralero, director de Analytics, IBM España.
Los científicos de datos necesitan herramientas en la nube para ser más eficaces

Por Víctor Carralero, director de Analytics, IBM España.

Los científicos de datos ayudan a las organizaciones a pasar de confiar en el instinto y la experiencia a usar datos para nuevas ideas transformadoras. Hoy en día es una profesión muy demandada, debido al crecimiento exponencial del volumen de datos  A medida que la transformación digital impulsa a más empresas e industrias de todo el mundo a la nube, existe una necesidad en constante crecimiento de capturar y gestionar datos nuevos y heredados. Mientras un científico de datos tenga fácil acceso a estos datos, ya está equipado con las habilidades para analizar los crecientes volúmenes a través de la tecnología de la nube para convertir la información en ideas que pueden transformar empresas e industrias. El problema es que simplemente no hay suficientes científicos de datos para manejar las demandas actuales, y mucho menos futuras.

Según el  "Worldwide Semiannual Big Data and Analytics Spending Guide" de IDC, los ingresos globales en el áreas del Big Data y Business Analytics alcanzarán los 203.000 millones de dólares en 2020. Más de la mitad, de los ingresos por análisis de negocios vendrá de Estados Unidos. La segunda región geográfica más grande será Europa occidental, seguida de Asia / Pacífico (excluido Japón) y América Latina. Las dos regiones con el crecimiento más rápido durante el período de cinco años serán América Latina y Medio Oriente y África.

La mayoría de las organizaciones contratan a científicos de datos para desarrollar algoritmos y construir modelos de aprendizaje automático, que generalmente es la parte del trabajo que más les gusta. De acuerdo con un informe de CrowdFlower, sin embargo, en la mayoría de las empresas, existe una "regla 80/20". Los científicos de datos gastan el 80 por ciento de su tiempo en encontrar, limpiar y organizar datos, dejando solo el 20 por ciento para analizar los datos.

Por estas razones, las organizaciones necesitan proporcionar nuevos servicios en la nube y tecnología a los científicos de datos para encontrar y organizar rápidamente volúmenes crecientes de datos. Así tendrán más tiempo para enfocarse en donde sus habilidades son más valiosas: analizar y trabajar con el creciente volumen de conjuntos de datos generados por todo, desde sensores hasta dispositivos y usuarios. Estos servicios pueden incluir herramientas para automatizar y simplificar el descubrimiento de datos, la conservación y la gobernanza, así como capacidades de búsqueda inteligente para ayudar a los científicos de datos a encontrar los datos que necesitan. Los metadatos, como las etiquetas, los comentarios y las métricas de calidad, pueden ayudarlos a decidir más rápidamente si un conjunto de datos será útil. La gobernanza de datos integrada proporciona a los científicos de datos la confianza de que los modelos y resultados que producen a partir de los conjuntos de datos son utilizados responsablemente por otros en la organización.

El objetivo es brindarles a los científicos de datos el tiempo necesario para construir y entrenar múltiples modelos simultáneamente, en lugar de limitarse a trabajar en un modelo a la vez. Este enfoque amplía el riesgo de los proyectos de análisis, fomentando la experimentación que produce avances, en lugar de enfocar los recursos en un enfoque único que podría ser un callejón sin salida.

La nube es la base de dicha estrategia, y brinda a los científicos de datos la capacidad de guardar, acceder y extender modelos de manera sencilla, lo que les permite usar activos existentes como plantillas para nuevos proyectos. La práctica, llamada "transferencia de aprendizaje", les permite evitar comenzar de cero cada vez y se enfoca en preservar el conocimiento adquirido al resolver un problema y aplicarlo a un problema diferente, pero relacionado.

La tecnología disruptiva está disponible para eliminar la "regla 80/20" y proporciona a los científicos de datos las herramientas para reclamar la mayor parte del tiempo que están desperdiciando en descubrir y limpiar datos. En cambio, los científicos de datos pueden producir trabajos innovadores que brinden una ventaja competitiva para las organizaciones y los ayuden a transformar sus negocios e industrias.