Cómo construir un equipo eficiente de datos para trabajar con datos web públicos

Construcción de equipo eficiente de datos para trabajar con datos web públicos

El tema de cómo armar un equipo de datos eficiente es una pregunta altamente debatida y discutida con frecuencia entre los expertos en datos. Si estás planeando construir un producto basado en datos o mejorar tu negocio existente con la ayuda de datos públicos de la web, necesitarás especialistas en datos.

Este artículo cubrirá los principios clave que he observado a lo largo de mi experiencia trabajando en la industria de datos públicos de la web que pueden ayudarte a construir un equipo de datos eficiente.

¿Por qué no hay una receta universal para ayudar con los datos públicos de la web?

Aunque aún no hemos encontrado una receta universal para ayudar con los datos públicos de la web, la buena noticia es que hay varias formas de abordar este tema y aún así obtener los resultados deseados. Aquí exploraremos el proceso de construcción de un equipo de datos desde la perspectiva de los líderes empresariales que recién están comenzando con los datos públicos de la web.

¿Qué es un equipo de datos?

Un equipo de datos es responsable de recopilar, procesar y proporcionar datos a las partes interesadas en el formato necesario para los procesos comerciales. Este equipo puede estar incorporado en un departamento diferente, como el departamento de marketing, o ser una entidad separada en la empresa.

El término equipo de datos puede describir un equipo de cualquier tamaño, desde uno o dos especialistas hasta un extenso equipo multinivel que gestiona y ejecuta todos los aspectos de las actividades relacionadas con los datos en la empresa.

¿Por dónde empezar?

Hay un principio sencillo que recomiendo a las empresas que trabajan con datos públicos de la web que sigan: un equipo de datos eficiente trabaja en consonancia con las necesidades de tu negocio. Todo comienza con el producto que construirás y los datos que se necesitarán.

En pocas palabras, cada empresa que planee comenzar a trabajar con datos web necesita especialistas que puedan procesar grandes cantidades de datos y aquellos que puedan transformar los datos en información valiosa para el negocio. Por lo general, la etapa de transformación es donde los datos comienzan a crear valor para sus usuarios finales.

Para llegar a esta etapa, incluso una pequeña empresa puede comenzar con un especialista.

La primera contratación puede ser un ingeniero de datos con habilidades analíticas o un analista de datos con experiencia en el manejo de grandes volúmenes de datos y en ingeniería de datos ligera. Al construir algo más complejo, es esencial entender que los datos web públicos se utilizan esencialmente para responder preguntas comerciales y el procesamiento de datos web se trata de iteraciones.

No importa la complejidad de tu producto, siempre empiezas adquiriendo una gran cantidad de datos.

Las iteraciones posteriores pueden incluir datos agregados o enriqueciendo tus datos con información de fuentes adicionales. Luego, los procesas para obtener información, como ideas específicas. Como resultado, obtienes información que se puede utilizar en procesos posteriores, por ejemplo, para apoyar la toma de decisiones comerciales, construir una nueva plataforma o proporcionar ideas a los clientes.

La respuesta a qué equipo de datos necesitas está conectada a las herramientas que utilizarás,

Desde una perspectiva de producto, la respuesta a qué equipo de datos necesitas está conectada a las herramientas que utilizarás, lo que también depende de los volúmenes de datos que utilizarás y cómo se transformarán. Desde esta perspectiva, puedo dividir la construcción de un equipo de datos en tres escenarios:

  • Escenario 1. Trabajas con herramientas semiautomatizadas o completamente automatizadas que no requieren personalización ni habilidades específicas. Es posible que incluso los especialistas en datos de nivel junior puedan manejar algunas tareas.
  • Escenario 2. Algunas operaciones o procesos de transformación de datos requieren trabajo de desarrollo fuera de las herramientas que estás utilizando.
  • Escenario 3. No puedes usar las opciones mencionadas anteriormente porque tu producto requiere personalización completa. En este caso, podrías utilizar software de código abierto y construir todo desde cero según las necesidades exactas de tu producto.

¿Cuál es tu producto y visión para construir un equipo de datos eficiente?

En última instancia, el tamaño de tu equipo de datos y los especialistas que necesitas dependen de tu producto y visión para el mismo. Nuestra experiencia en la construcción del equipo de datos de Coresignal nos enseñó que el principio clave es hacer coincidir las capacidades del equipo con las necesidades del producto, independientemente del nivel de experiencia de los especialistas.

¿Cuántos roles de datos existen en un equipo de datos?

La respuesta corta a esta pregunta es “Depende”. En cuanto a la clasificación de los roles de datos, hay muchas formas de abordar esta pregunta. Surgen nuevos roles y las líneas entre los roles existentes a veces pueden superponerse.

Veamos los roles más comunes en los equipos que trabajan con datos públicos de la web. En mi experiencia, la estructura de los equipos de datos está relacionada con el proceso de trabajo con datos web, que consta de los siguientes componentes:

  • Obtener datos del sistema fuente;
  • Ingeniería de datos;
  • Análisis de datos;
  • Ciencia de datos.

En su artículo publicado en 2017, la conocida científica de datos Monica Rogati introdujo el concepto de jerarquía de necesidades de ciencia de datos en una organización. Muestra que la mayoría de las necesidades relacionadas con la ciencia de datos en una organización están relacionadas con las partes del proceso en la parte inferior de la pirámide: recopilar, mover, almacenar, explorar y transformar los datos. Estas tareas también constituyen una sólida base de datos en una organización. Las capas superiores incluyen el análisis, el aprendizaje automático (ML) y la inteligencia artificial (IA).

Sin embargo, todas estas capas son importantes en una organización que trabaja con datos web y requieren especialistas con un conjunto de habilidades específicas.

Ingenieros de datos

Los ingenieros de datos son responsables de gestionar el desarrollo, la implementación y el mantenimiento de los procesos y herramientas utilizados para la ingestión de datos en bruto y producir información para su uso posterior, por ejemplo, análisis o aprendizaje automático (ML).

Cuando contratas ingenieros de datos, la experiencia general trabajando con datos web y la especialización en trabajar con herramientas específicas suelen estar en la parte superior de la lista de prioridades. Necesitas un ingeniero de datos en los escenarios 2 y 3 mencionados anteriormente y en el escenario 1, si decides comenzar con un especialista.

Analistas de datos (o de negocios)

Los analistas de datos se centran principalmente en los datos existentes para evaluar el rendimiento de un negocio y proporcionar ideas para mejorarlo. Ya necesitas analistas de datos en los escenarios 1 y 2 mencionados anteriormente.

Las habilidades más comunes que las empresas buscan al contratar analistas de datos son SQL, Python y otros lenguajes de programación (dependiendo de las herramientas utilizadas).

Científicos de datos

Los científicos de datos son principalmente responsables del análisis avanzado que se centra en hacer predicciones o generar ideas para el futuro. El análisis se considera “avanzado” si se utilizan para construir modelos de datos. Por ejemplo, si vas a realizar operaciones de aprendizaje automático o procesamiento de lenguaje natural.

Supongamos que quieres trabajar con datos sobre empresas analizando sus perfiles públicos. Quieres identificar el porcentaje de perfiles de empresas en tu base de datos que son falsos. A través de múltiples iteraciones de varias capas, quieres crear un modelo matemático que te permita identificar la probabilidad de un perfil falso y categorizar los perfiles que estás analizando en función de criterios específicos. Para estos casos de uso, las empresas a menudo confían en científicos de datos.

Las habilidades esenciales para un científico de datos son las matemáticas y las estadísticas, que son necesarias para construir modelos de datos, y habilidades de programación (Python, R). Es probable que necesites científicos de datos en el escenario tres mencionado anteriormente.

Ingeniero de análisis

Este papel relativamente nuevo se está volviendo cada vez más popular, especialmente entre las empresas que trabajan con datos web públicos. Como sugiere el título, el papel de un ingeniero de análisis está entre un analista que se centra en el análisis y un ingeniero de datos que se centra en la infraestructura. Los ingenieros de análisis son responsables de preparar conjuntos de datos listos para su uso para el análisis de datos, que generalmente realizan analistas de datos o científicos de datos, y asegurarse de que los datos estén preparados para su análisis de manera oportuna.

SQL, Python y experiencia con herramientas necesarias para extraer, transformar y cargar datos son algunas de las habilidades esenciales requeridas para los ingenieros de análisis. Tener un ingeniero de análisis sería útil en los escenarios 2 y 3 mencionados anteriormente.

Tres cosas a tener en cuenta al armar un equipo de datos

Como hay muchos enfoques diferentes para la clasificación de roles de datos, también hay una variedad de marcos que pueden ayudarte a armar y hacer crecer tu equipo de datos. Simplifiquemos para un comienzo fácil y digamos que hay diferentes enfoques a través de los cuales una empresa puede evaluar qué equipo será necesario para comenzar con datos web.

Enfoque de datos

Me refiero a los datos web en este artículo como big data. Por lo general, se entregan grandes cantidades de registros de datos en archivos grandes y en formato sin procesar. Sería mejor contar con especialistas en datos con experiencia trabajando con grandes volúmenes de datos y las herramientas utilizadas para su procesamiento.

Enfoque de pila tecnológica

Cuando se trata de herramientas, debes considerar que las herramientas que tu organización utilizará para manejar tipos específicos de datos también darán forma a qué especialistas necesitarás. Si necesitas familiarizarte más con las herramientas requeridas, consulta a un experto antes de contratar un equipo de datos o contrata profesionales para que te ayuden a seleccionar las herramientas adecuadas según las necesidades de tu negocio.

Enfoque organizacional

También puedes comenzar a construir un equipo de datos evaluando con qué partes interesadas trabajarán de cerca los especialistas en datos y decidir cómo este nuevo equipo se ajustará a tu visión de la estructura organizativa. Por ejemplo, ¿el equipo de datos formará parte del equipo de ingeniería? ¿Este equipo se centrará principalmente en el producto? ¿O será una entidad separada en la organización?

Las organizaciones que tienen un nivel de madurez de datos más avanzado y están construyendo un producto impulsado por datos analizarán esta tarea a través de un enfoque más complejo, que implica la visión futura de la empresa, la alineación en la definición de datos en toda la organización, decidir quién y cómo lo gestionará y cómo se verá la infraestructura de datos en general a medida que el negocio crece.

¿Qué hace que un equipo de datos sea eficiente?

Se considera que el equipo de datos es eficiente siempre y cuando satisfaga las necesidades de tu negocio, y en casi todos los casos, la eficiencia del equipo de datos se mide en tiempo y dinero.

Entonces, puedes confiar en métricas como la cantidad de datos procesados durante un tiempo específico o la cantidad de dinero gastada. Siempre que hagas un seguimiento de esta métrica a intervalos regulares, lo siguiente que querrás observar es la dinámica de estas métricas. En pocas palabras, si tu equipo logra procesar más datos con la misma cantidad de dinero, significa que el equipo se está volviendo más eficiente.

Otro indicador de eficiencia que combina lo mencionado anteriormente es qué tan bien está escribiendo código su equipo, ya que puede tener muchos recursos y realizar iteraciones rápidamente, pero los errores equivalen a más recursos gastados.

Además de las métricas que son fáciles de rastrear, uno de los problemas más comunes que experimentan las empresas es la confianza en los datos. La confianza en los datos es precisamente lo que suena. Aunque hay una forma de rastrear el tiempo que lleva realizar tareas relacionadas con los datos o ver cuánto cuesta, los interesados aún pueden cuestionar la confiabilidad de estas métricas y los propios datos. Esta confianza puede verse afectada negativamente por experiencias negativas como incidentes anteriores o simplemente la falta de comunicación e información de los propietarios de los datos.

Además, trabajar con grandes volúmenes de datos significa que detectar errores es una tarea compleja. Sin embargo, la organización debe poder confiar en la calidad de los datos que utiliza y las ideas que produce utilizando estos datos.

Es útil realizar pruebas estadísticas que permitan al equipo de datos evaluar las métricas cuantitativas relacionadas con la calidad de los datos, como las tasas de llenado. Al hacer esto, la organización también puede acumular datos históricos que permitirán al equipo de datos detectar problemas o tendencias negativas a tiempo. Otro principio esencial para aplicar en su organización es escuchar los comentarios de los clientes sobre la calidad de sus datos.

En resumen, todo se reduce a tener especialistas talentosos en su equipo de datos que puedan trabajar rápidamente, con precisión y generar confianza en torno al trabajo que están haciendo.

Conclusión

Para resumir todo, aquí hay preguntas útiles para ayudarlo a armar un equipo de datos:

  • ¿Cuál es su producto?
  • ¿Qué datos utilizará?
  • ¿Cuáles son los componentes clave del producto que involucran datos?
  • ¿Cuáles son los resultados esperados en las diferentes etapas del proyecto que involucran datos?
  • ¿Qué conjunto de tecnologías se requerirá para eso?
  • ¿Quiénes son los interesados?
  • ¿Qué indicadores lo ayudarán a evaluar si su equipo de datos actual cumple con las necesidades de su negocio?

Espero que este artículo le haya ayudado a comprender mejor los diferentes roles de datos que son comunes en las organizaciones que trabajan con datos web públicos, por qué son esenciales, qué métricas ayudan a las empresas a medir el éxito de sus equipos de datos y, finalmente, cómo todo está conectado con la forma en que su organización piensa sobre el papel de los datos.

Crédito de la imagen destacada: Foto de Sigmund; Proporcionada por el autor; De Unsplash; ¡Gracias!