Cómo Medir la Calidad de los Datos

Es poco probable que haya datos perfectos, pero hay algunos aspectos fundamentales que aún debe medir

Como es el caso en la mayoría de los ámbitos de la vida, generalmente tiende a obtener lo que ingresa, y lo mismo ocurre con la calidad de los datos. Si su empresa recopila datos limpios y completos, su base de datos estará llena hasta el borde con información potencial que puede extraer.

La forma más segura de asegurarse de que su empresa está aprovechando al máximo los datos que recopila, por lo tanto, es asegurarse de haber recopilado solo los datos de la más alta calidad sin errores. Sin embargo, es mucho más fácil decirlo que hacerlo.

Aunque los datos normalmente se pueden almacenar en forma de columnas y filas ordenadas, o ambas, una vez que amplía su red para incluir información obtenida de fuentes en línea y plataformas de redes sociales, la variedad puede dificultar la limpieza del conjunto de datos y obtener información. Cualquier vista estructurada de los datos comienza a desvanecerse.

Es importante tener en cuenta que, en aras de mejorar la calidad de los datos, solo vale la pena capturar datos si aportan valor. Las organizaciones están creando y recopilando más datos que nunca, aunque esto puede tener un efecto negativo en la calidad general de los datos que existen.

Las empresas que buscan datos de alta calidad pueden tener que invertir tiempo y dinero en procesarlos y limpiarlos, aunque esto no siempre puede ser viable. Aquellos que analizan la opinión de los clientes en Twitter, por ejemplo, tendrán que reaccionar rápidamente y sacrificar la calidad general de los datos por la velocidad en la obtención de información.

Todo esto significa que, en la práctica, la calidad perfecta de los datos es un objetivo casi imposible. Los datos que recopile de diversas fuentes no estarán estructurados y su limpieza cuesta. Sin embargo, eso no significa que no deba valorar la calidad de los datos que posee. Si bien no será perfecto, debes asegurarte de que esté lo más limpio posible para que siga siendo útil.

Cuando están equipadas con las métricas clave para medir la calidad de los datos, las empresas saben dónde se encuentran. Lo siguiente sería implementar una estrategia de gestión de la calidad de los datos, un proceso que mejora aún más la medición de la calidad de los datos mediante la aplicación de la combinación de las personas, los procesos y las tecnologías adecuadas.

Entonces, ¿cómo mido la calidad de los datos?

Hay una variedad de definiciones, pero la calidad de los datos generalmente se mide en función de un conjunto de criterios llamados ‘dimensiones de calidad de los datos’ que evalúan la salud de los datos, como la integridad o la singularidad.

En un mundo ideal, todos estos criterios tendrían el mismo peso, pero dependiendo de para qué pretenda usar sus datos, o de su función principal, es posible que desee priorizar ciertos criterios con más fuerza que otros.

Aunque muchas industrias habrán ideado métricas separadas para evaluar la calidad de los datos, DAMA International, el organismo de gestión de recursos de datos sin fines de lucro, ha establecido sus seis criterios clave que considera como el estándar para medir cualquier base de datos .

Lo completo

DAMA define la integridad como la cantidad de datos que se rellenan, en lugar de dejarlos en blanco. Por ejemplo, una encuesta estaría completa en un 70% si la completa el 70% de las personas. Para garantizar la integridad, se deben registrar todos los conjuntos de datos y elementos de datos.

Unicidad

Esta métrica evalúa qué tan única es una entrada de datos y si está duplicada en cualquier otro lugar dentro de su base de datos. La singularidad está asegurada cuando el dato solo se ha registrado una vez. Si no hay una vista única, es posible que deba deducirla.

Oportunidad

¿Qué tan recientes son sus datos? Este aspecto esencial de los criterios DAMA evalúa cuán útiles o relevantes pueden ser sus datos en función de su antigüedad. Naturalmente, si una entrada tiene una fecha, por ejemplo, de 12 meses, la posibilidad de cambios drásticos en el ínterin puede hacer que los datos sean inútiles. El kilometraje del automóvil, que cambia con frecuencia, es un buen ejemplo.

Validez

En pocas palabras, ¿los datos que ha registrado reflejan qué tipo de datos se propuso registrar? Entonces, si le pide a alguien que ingrese su número de teléfono en un formulario, y escribe ‘sjdhsjdshsj’, esos datos no son válidos, porque no es un número de teléfono; los datos no coinciden con la descripción del tipo de datos que debería ser.

Exactitud

La precisión determina si la información que tiene es correcta o no, y no debe confundirse con la validez, una medida de si los datos son realmente del tipo que deseaba.

Consistencia

Para cualquiera que intente analizar datos, la coherencia es una consideración fundamental. Básicamente, debe asegurarse de poder comparar datos entre conjuntos de datos y medios (ya sea en papel, en un archivo de computadora o en una base de datos): ¿está todo registrado de la misma manera, lo que le permite comparar los datos y tratarlos? ¿como un todo?

Recuerde que sus datos rara vez serán perfectos y que tiene que hacer malabarismos con la gestión de la calidad de sus datos con el uso real de los datos: dedique demasiado tiempo a garantizar la calidad y pronto no tendrá sentido analizarlos, porque será mucho más allá de su fecha de caducidad.

Sin embargo, debe realizar auditorías periódicas de la calidad de los datos, especialmente porque probablemente esté recopilando nuevos conjuntos de datos con regularidad, para asegurarse de que sean tan limpios y útiles como sea posible. Sin buenos datos, no puede confiar en ellos para producir información empresarial útil y para informar buenas decisiones.

Por qué es importante medir la calidad de los datos

Los datos de calidad pueden marcar la diferencia entre las empresas que se mantienen a flote y las que se hunden. Esto es particularmente evidente cuando se consideran mercados competitivos, que generalmente están inundados de PYMES que luchan por robar astillas de corporaciones gigantes. Con los rivales que aprovechan los datos y los presupuestos ya extendidos hasta el punto de ruptura, las organizaciones que no están aprovechando las oportunidades de datos sólidos pueden representar el riesgo de quedarse atrás.

Desde una perspectiva puramente económica, a medida que se optimiza la calidad de los datos, también se optimizan las finanzas de la empresa. Esto se debe a que los datos deficientes necesitan recursos para transformarlos en información. La investigación realizada por Gartner encontró que las organizaciones creen que pierden un promedio de $ 15 millones por año en pérdidas relacionadas con datos de mala calidad. Tener una estrategia de datos en su lugar aseguraría que se mantendrá un cierto nivel de calidad, reduciendo estos desembolsos.

Los datos precisos también permiten a las empresas comprender mejor las necesidades de sus clientes. Esto hace que el marketing sea más efectivo, con campañas dirigidas que llegan a la demografía deseada. Los procesos internos deben mejorar, ya que cuando los responsables de la toma de decisiones pueden confiar plenamente en los datos en los que se basan, se pueden tomar mejores decisiones con mayor rapidez.

Las empresas también deben conocer las regulaciones de cumplimiento. En muchas industrias, el proceso de almacenamiento de datos invade las leyes de protección de datos . Los datos deben estar protegidos de acuerdo con un estándar y no deben utilizarse para fines adversos. Con una mejor comprensión de los datos que posee, hay menos posibilidades de usar datos accidentalmente de formas restringidas.

Artículos Recomendados


Categorías PC

Deja un comentario