Seis consejos para mejorar la ciencia de datos en la nube

Publicado el 14 Oct 2021

La nube ha transformado las posibilidades de la ciencia de datos. Los equipos de datos tienen ahora acceso a un vasto conjunto de potencia informática elástica, numerosas fuentes de datos internas y externas, y servicios gestionados en la nube que reducen la complejidad de la creación, la formación y la implementación de modelos de aprendizaje automático y aprendizaje profundo a escala.

Pero eso no significa que no haya desafíos cuando los equipos se adaptan de una infraestructura local a un modelo basado en la nube. Los científicos de datos, los ingenieros de datos y los desarrolladores tienen que aprender y adaptarse a un nuevo entorno, y hay un ecosistema de herramientas y marcos en constante expansión y rápida evolución entre los que elegir. Muchos están aprendiendo sobre la marcha, averiguándolo sobre la marcha.

La facilidad con la que se copian los datos en diversos sistemas puede crear problemas de gobernanza si no se maneja adecuadamente

Las mismas capacidades que hacen que la nube sea tan emocionante también crean posibles escollos con los que hay que tener cuidado. La facilidad con la que se copian los datos en diversos sistemas puede crear problemas de gobernanza si no se maneja adecuadamente. La velocidad del cambio significa que los equipos de datos pueden apostar por la herramienta o el marco de trabajo equivocados y quedarse varados en ellos. Los hábitos y prejuicios del mundo de la infraestructura local pueden limitar la comprensión de lo que es posible en la nube.

Después de crear tecnología de gestión de datos durante muchos años, y de hablar con frecuencia con organizaciones de todos los tamaños y de todos los sectores, he visto algunas trampas y malentendidos comunes que pueden impedir que los equipos de datos hagan un gran trabajo. La nube abre una frontera apasionante para entender mejor a los clientes, monetizar los datos de nuevas maneras y hacer predicciones sobre el futuro. Así que espero que los siguientes consejos permitan a los equipos de datos aprovechar esas ventajas, al tiempo que trabajan de forma segura, eficiente y eficaz.

He visto algunas trampas y malentendidos comunes que pueden impedir que los equipos de datos hagan un gran trabajo

1. Hacer de la gobernanza la principal prioridad

Es fundamental permitir la iteración y la investigación sin comprometer la gobernanza y la seguridad. Por ejemplo, muchos científicos de datos quieren intuitivamente copiar un conjunto de datos antes de empezar a trabajar en él. Pero es demasiado fácil hacer copias, seguir adelante y olvidarse de que existen, creando una pesadilla en términos de cumplimiento, seguridad y privacidad. Una plataforma de datos moderna debería permitirle trabajar con instantáneas, o copias virtuales, sin necesidad de duplicar conjuntos de datos enteros, al tiempo que mantiene controles estrictos para garantizar que sólo los usuarios y las aplicaciones adecuadas tengan acceso a ellos. Cree procesos que reduzcan al mínimo las copias y limpien todo lo que se copie; no seas la persona que haga que su empresa aparezca en los titulares de las noticias por razones equivocadas.

2. Dejar las ideas preconcebidas en la puerta

Si vienes de un mundo de infraestructura local, a menudo traerás percepciones y prejuicios sobre la infraestructura que ya no se aplican a las plataformas modernas en la nube. A menudo he escuchado a científicos de datos decir: “Me encantaría volver a entrenar mi modelo varias veces al día, pero es demasiado lento y retrasará otros procesos”. Pero eso no es un problema en un mundo de infraestructura elástica. Aborda la nube desde los primeros principios. Empieza por lo que quieres conseguir, no por lo que crees que es posible, y avanza a partir de ahí. Esa es la única manera de superar los límites y aprovechar al máximo este nuevo entorno.

3. Evitar crear silos de datos 2.0

El concepto de silos está estrechamente ligado a la gestión de datos. En la nube, es importante no reproducir la fragmentación que es común en el mundo local. La proliferación de herramientas, plataformas y proveedores es excelente para la innovación, pero también puede dar lugar a datos redundantes e incoherentes almacenados en múltiples ubicaciones. Otra causa de fragmentación se produce cuando los datos estructurados se almacenan en un entorno, como un almacén de datos, mientras que los datos semiestructurados acaban en un lago de datos. Además de comprometer la gobernanza y la seguridad, esta fragmentación puede obstaculizar la consecución de mejores predicciones o clasificaciones.

Trabaje con una plataforma de datos en la nube que ofrezca una visión global y consolidada de sus datos. Eso significa una plataforma que pueda acomodar datos estructurados, semiestructurados y no estructurados uno al lado del otro y que proporcione una única instancia a través de múltiples proveedores y herramientas en la nube, no seis versiones de sus datos replicados en diferentes plataformas y entornos.

4. Mantener tus opciones abiertas

Una de las cosas más emocionantes de este sector es que los marcos y las herramientas están evolucionando a un ritmo increíble, pero es fundamental no encerrarse en un enfoque que limite sus opciones cuando las tecnologías entren y salgan del mercado. Por poner un ejemplo: Spark ML solía ser la respuesta a la mayoría de los problemas de capacitación a gran escala, pero ahora TensorFlow y PyTorch están captando la mayor atención. Nunca se sabe qué pasará el año que viene, o la semana que viene. Elije una plataforma de datos que no te ate a un marco o a una forma de hacer las cosas, con una arquitectura extensible que pueda acomodar nuevas herramientas y tecnologías a medida que vayan apareciendo.

5. Incorporar fuentes de datos de terceros

La nube facilita enormemente la incorporación de datos externos de socios y proveedores de servicios de datos a tus modelos. Esto fue especialmente importante durante el año pasado, ya que las empresas trataron de entender cómo el impacto de la COVID-19, las fluctuaciones de la economía y los consiguientes cambios en el comportamiento de los consumidores, afectarían a sus negocios. Por ejemplo, las organizaciones utilizaron datos sobre las tasas de infección locales, el tráfico de personas en las tiendas y posts en los medios sociales para predecir los patrones de compra y prever las necesidades de inventario. Hay que explorar las numerosas fuentes de datos disponibles y determinar cuáles pueden ayudar a abordar con precisión las preguntas que tu empresa necesita responder.

6. Minimizar la complejidad

A menudo se dice que cuando se tiene un martillo, todo parece un clavo, y esto se aplica a las tecnologías de IA como el aprendizaje automático y el aprendizaje profundo. Son inmensamente potentes y tienen un papel fundamental para ciertas necesidades empresariales, pero no son la panacea para todos los problemas. Comienza siempre con la opción más sencilla y aumenta la complejidad según sea necesario. Prueba con una simple regresión lineal, o mira los promedios y las medias. ¿Cuál es la precisión de las predicciones? ¿El retorno de la inversión al aumentar la precisión justifica un enfoque más complejo? A veces sí, pero no se lanza a esa opción como primer instinto.

Hacer análisis de datos avanzados nunca ha sido más accesible. Los científicos de datos, los ingenieros de datos y los desarrolladores se encuentran ahora entre los miembros más importantes de cualquier organización. La nube es un lugar más sencillo, potente y dinámico para realizar análisis de datos, y los retos que presenta no son difíciles de abordar cuando se es consciente de ellos y se toman las decisiones correctas sobre la tecnología y las herramientas. Pero hay que ser deliberado y pensar antes de lanzarse.

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

A
José Maria Alonso Elizo

Artículos relacionados

Artículo 1 de 2