Claves para mejorar el data management en investigación

Dell Technologies publica un informe en el que desvela los componentes principales para optimizar la gestión de datos en este ámbito.

Publicado el 24 Ene 2022

Claves para mejorar el data management en investigación.

El data management es una industria multimillonaria con una fuerte competencia y un panorama a menudo confuso. Aunque la expansión de este mercado ha dado paso a un período de consolidación, el ecosistema está en constante evolución y continúa cambiando a gran velocidad. Las fusiones, adquisiciones y desplazamientos impactan en los instrumentos y las plataformas utilizadas para administrar la información. No en vano, las nuevas herramientas de hardware y software que van surgiendo pueden cambiar rápidamente la forma en que se administran los datos.

Para los investigadores, el proceso de recopilar información para formular una hipótesis, realizar experimentos o analizar y repetir un programa de investigación puede ser una tarea abrumadora. El reto se agrava cuando se incorpora el uso de tecnologías avanzadas y big data, y se vuelve aún más complicado ante una mayor presión de la legislación y las restricciones de seguridad.

Para abordar estos desafíos, las organizaciones centradas en la investigación deben adoptar un enfoque estratégico para la gestión de datos. Sin embargo, ¿cuáles son las mejores prácticas en un entorno en constante evolución de enfoques, herramientas y amenazas?

Componentes interconectados

El data management se puede dividir en un conjunto de componentes interconectados. Tomados en grupo, estos componentes proporcionan una estructura para ayudar a ingenieros y científicos de datos, personal de operaciones de TI y usuarios a comprender cómo la evolución de la gestión de datos está afectando a la forma en que se construye y se lleva a cabo una investigación, las habilidades necesarias para los consumidores de los datos, y el futuro de estas tareas de administración.

Sobre este particular, ha identificado nueve piezas clave de este rompecabezas:

  • Movimiento de datos
  • Localización de los datos
  • Gestión de metadatos
  • Integración de datos
  • Capacidades de búsqueda
  • Catálogos o listado de datos
  • Data pipeline
  • Política y gobernanza
  • Seguridad intrínseca y confianza

Las organizaciones deben considerar cuidadosamente cómo abordan estos elementos como parte de su estrategia de data management para permitir que la labor de investigación sea efectiva, genere eficiencias y proteja todos los datos como activos valiosos.

Veamos en detalle algunos de estos ingredientes:

Movimiento de datos. Algunas tendencias del mercado impactarán en la forma en que se desarrollará el movimiento de datos en los próximos años. En primer lugar, las organizaciones están adoptando entornos de nube híbrida en los que los datos se almacenan tanto en la infraestructura local como en proveedores cloud, en dispositivos remotos, en sensores y en gateway perimetrales. A medida que los investigadores requieran utilizar esos datos, deberán ser accesibles y seguros, sin importar dónde se guarden. En segundo lugar, el aprendizaje automático se utiliza cada vez más para automatizar tareas manuales que antes eran responsabilidad de los profesionales de TI. Como resultado, esos profesionales dedicarán menos tiempo a los procesos rutinarios y más tiempo a la supervisión de la asignación de recursos y la resolución de problemas a distancia.

Localización de datos. Ya sea que los datos se generen y almacenen en la nube, en un centro de datos, en el borde o en algún punto intermedio, comprender dónde se encuentran los datos es fundamental para cualquier estrategia de gestión de datos. Además, el edge computing es una consideración nueva que ha surgido para dar respuesta a la TI descentralizada, la Web 3.0 y los datos desagregados y en la que la ventaja computacional proviene del preprocesamiento de datos, de modo que solo los datos clave, los datos agregados o los datos pre-analizados se transmiten desde el borde a un data center. Y en algunos casos, los datos no necesitan hacer un viaje de ida y vuelta a un CPD; se puede procesar completamente en el extremo. La computación perimetral se puede emplear para una variedad de aplicaciones, desde IA y análisis hasta inferencia y aprendizaje localizado. Estos sistemas también pueden proporcionar agregación de datos desde múltiples puntos y pueden actuar como nodos en una red distribuida.

Data pipeline. Las segmentaciones de datos proporcionan una construcción organizada y, a menudo, eficiente para la entrega de información desde el origen de los mismos hasta su destino. Estas pipeline deben automatizarse siempre que sea posible y pueden aprovechar el aprendizaje automático y la Inteligencia Artificial para ayudar en el abastecimiento y el consumo. Para hacer un mejor uso de estas soluciones, los investigadores han de poder articular claramente dónde, cuándo y cómo se recopilan los datos. Es probable que los investigadores y las organizaciones que tienen una estrategia de gestión de datos madura empleen múltiples canalizaciones de datos.

Política y gobernanza. La política y la gobernanza también implican que los investigadores tengan un plan para la gestión de datos. La Fundación Nacional de Ciencias y los Institutos Nacionales de Salud (National Science Foundation and the National Institutes of Health), junto con otras agencias federales en los Estados Unidos, exigen la inclusión de un plan de gestión de datos como parte de las solicitudes de subvenciones. Por lo tanto, las universidades y las instituciones de enseñanza superior asumen la responsabilidad de la administración adecuada de los datos generados por la empresa de investigación. La carga sobre las instituciones sigue creciendo a medida que aumenta exponencialmente la cantidad de datos de investigación de los que son responsables.

Seguridad intrínseca y confianza. Las brechas de confianza asociadas con las soluciones actuales suponen una oportunidad para las tecnologías emergentes: la Internet de las cosas se está asegurando a través de una combinación de recopilación y procesamiento de datos de telemetría y perimetrales; las soluciones de procedencia de datos (data provenance), garantizan la precisión y la legitimidad de los datos, incluso para artículos físicos adquiridos a través de cadenas de suministro complejas; la seguridad de los datos en los modelos de nube híbrida protege los datos en tránsito. Incluso los modelos SecDevOps -el proceso de integración de la seguridad, el desarrollo y las operaciones de TI en una arquitectura de gestión del ciclo de vida cohesionada o, en otras palabras, la incorporación de buenas prácticas de seguridad desde la fase de desarrollo-, es una muestra más de la atención y la importancia que se otorga a la necesidad de confianza en la gestión de datos.

Al deconstruir los componentes de una estrategia de gestión de datos, los investigadores pueden asegurarse de que son administradores responsables de los datos y que están empleando las mejores tecnologías. Aunque la responsabilidad no recae totalmente en los investigadores (debe ser compartida por los gestores de investigación, los estudiantes y otras partes implicadas), solo a través de la cooperación colaborativa de investigadores, organizaciones y operaciones de TI se puede lograr la implementación óptima de una estrategia de gestión de datos para investigación.

¿Qué te ha parecido este artículo?

Tu opinión es importante para nosotros.

R
Redacción RedesTelecom

Artículos relacionados

Artículo 1 de 2