Tribuna de Opinión

Nos importa tu punto de vista

Tribuna de opinión
Datos, datos y más datos: La calidad del dato y el desafío de los datos oscuros en la inteligencia artificial del ciclo integral del agua

23/10/2025

Datos, datos y más datos: La calidad del dato y el desafío de los datos oscuros en la inteligencia artificial del ciclo integral del agua


Miguel Ángel Rodríguez Núñez

Miguel Ángel Rodríguez Núñez

  • Técnico de Sistemas de Control Industrial en EMASESA

Más artículos del autor

 
"Actualmente vivimos en un tiempo donde el dato se ha convertido en el recurso más valioso del ciclo integral del agua, más determinante incluso que la propia infraestructura física"
 
La inteligencia artificial generativa nos promete revolucionar la gestión de las plantas de tratamiento, los sistemas de distribución y los procesos de control, pero su éxito va a depender de un principio tan simple como inflexible: la calidad del dato. Debemos tener muy claro que un modelo de inteligencia artificial no es más inteligente que los datos que lo alimentan. Si la información de partida es inconsistente, imprecisa o incompleta, el resultado no será conocimiento, sino ruido (Garbage in, garbage out como dicen nuestros amigos anglos).
 
En las estaciones depuradoras, las plantas potabilizadoras y las redes de abastecimiento, el dato nace en la sensórica. Cada sonda, cada transmisor, cada analizador constituye el punto de origen de un flujo de información que, con el tiempo, se convierte en la materia prima de los algoritmos de predicción, diagnóstico o control. Si interiorizamos este concepto entenderemos que la definición técnica y operativa de la sensórica se ha convertido esencialmente en un acto estratégico. Pero no basta con instalar sensores; hay que definir su rango de medida, su frecuencia de muestreo, su ubicación exacta, las condiciones de calibración y los metadatos asociados. Sin esa caracterización inicial, el dato pierde contexto y, por tanto, valor analítico. Un pH, nivel o presión medido sin saber cuándo, dónde o con qué calibración fue tomado es solo un número; no un dato confiable.
 
Desde mi punto de vista, uno de los principales problemas que sufre nuestro sector actualmente es la ausencia de una racionalidad estructurada en la definición de qué datos son realmente necesarios para monitorizar, controlar y optimizar nuestras instalaciones. La digitalización se ha impulsado muchas veces desde la tecnología, no desde la estrategia, lo que ha llevado a desplegar sensórica sin un criterio funcional claro, generando volúmenes ingentes de información sin una relación directa con los objetivos de operación o eficiencia. ¿Es razonable gestionar una instalación de bombeo con 700 señales o con 1300?, ¿un embalse con 600?, ¿un depósito con 300?...lo primero que nos vendrá a la cabeza es “según su nivel de automatización” pero puede que estemos matando moscas a cañonazos.
 
No existe todavía un marco metodológico común que priorice qué variables deben medirse, con qué resolución, bajo qué criterios de calidad y con qué finalidad analítica. En consecuencia, conviven infraestructuras sobreinstrumentadas con otras carentes de datos críticos, Kpis o indicadores efectivos de gestión lo que provoca una asimetría informativa que limita la capacidad de control real. Esta falta de racionalidad en la arquitectura del dato impide cerrar el ciclo entre medición, análisis y decisión, y convierte a la inteligencia artificial en un espejo deformado que no nos permitirá ver la realidad tal cual es.
 
La trazabilidad del dato es el hilo invisible que une la medición con la decisión. Todo dato utilizado en un sistema de inteligencia artificial debería poder reconstruirse hasta su origen físico. Esa trazabilidad garantiza no solo la fiabilidad técnica, sino también la responsabilidad operativa y legal de las decisiones basadas en él. En este sentido, nuestros entornos industriales (industriales si, porque el agua también es una industria) deben adoptar arquitecturas de datos donde cada registro incluya información sobre el dispositivo de origen, la fecha de calibración, las condiciones ambientales y el tratamiento digital aplicado. Solo así se puede auditar el ciclo completo de información: desde la captación hasta la explotación.
 
Pero no todo es sensorización trasparente de datos enviados limpiamente desde campo. Junto a los datos de calidad conviven los datos oscuros, una masa invisible de información que se genera, pero no se utiliza, se archiva sin clasificar o se pierde por incompatibilidades de formato o el “esos datos ya nos nos valen”. Podemos encontrar entre ellos desde datos erróneos hasta información en papel que se ha dado por obsoleta o inservible pero que documenta situaciones que se repiten cíclicamente. En las instalaciones hidráulicas, los datos oscuros pueden representar más del sesenta por ciento del total registrado. Cuando se trata de mediciones fuera de rango, registros sin metadatos, datos redundantes o incluso valores descartados por errores de comunicación su sola presencia puede contaminar los conjuntos de entrenamiento de los modelos de inteligencia artificial y distorsionar las correlaciones estadísticas.
 
Los datos oscuros son la zona ciega de la inteligencia operativa: consumen espacio, confunden algoritmos y erosionan la confianza en el dato. Gestionarlos no significa borrarlos, sino clasificarlos, depurarlos y dotarlos de contexto mediante técnicas de minería y validación automatizada. Tenemos que considerarlos como futuro combustible estratégico que marque la diferencia entre gestión eficiente y gestión dominante con nuestros modelos de inteligencia artificial.
 
Siguiendo el flujo de la información, el desafío no termina en la captura del dato. La inteligencia artificial aplicada a nuestros procesos no puede ni debe concebirse como un consumidor pasivo de datos, sino como un sistema de retroalimentación activa. Desde la fase de análisis, los modelos deben devolver información hacia el proceso, identificando patrones anómalos o inconsistencias que sirvan para mejorar la sensórica misma. Si un algoritmo detecta, por ejemplo, desviaciones sistemáticas en un caudalímetro frente a valores teóricos de consumo energético en un bombeo, esa información debe traducirse en una alerta para revisar su calibración o instalación. Este feedback operativo entre la analítica avanzada y campo es lo que convierte un sistema digital en un ecosistema inteligente: uno que aprende no solo de los datos, sino también de sus errores.
 
¿Y cómo lo hacemos realidad?, pues estableciendo bucles de retroalimentación formalizados entre los equipos de operación, los responsables de instrumentación y los analistas de datos. Cada modelo predictivo debe actuar como un auditor continuo del estado de la sensórica, y cada anomalía detectada debe cerrar el ciclo con acciones correctivas verificables. Este principio de “aprendizaje cerrado” garantiza que la inteligencia artificial no se limite a interpretar la realidad, sino que contribuya activamente a mejorarla.
 
El futuro del agua inteligente no depende solo de más datos, sino de datos mejores. Nuestros sistemas de control evolucionan hacia arquitecturas autónomas y distribuidas y en éstas la calidad del dato será el auténtico factor de resiliencia. Los datos bien medidos, trazables y verificados construirán modelos más precisos, decisiones más seguras y operaciones más sostenibles. El análisis de los datos oscuros nos podrá ofrecer una oportunidad estratégica o bloquear el resultado de los modelos desarrollados, depende de nuestra gestión. Tengamos claro que la transformación digital del agua no empieza en el algoritmo, sino en el sensor, todo lo que ocurra después —optimización, predicción o autonomía— será tan sólido como la veracidad del primer dato medido.
 
 
Miguel Ángel Rodríguez Núñez
 

Publicidad

Deja tu comentario

Comentarios Publicar comentario

No hay comentarios publicados hasta la fecha.