08
Mar

Calidad de datos: la receta para la Inteligencia Artificial y el Aprendizaje Automático

Aunque para algunos la promesa de la Inteligencia Artificial (I.A.) siga sonando futurista, la realidad es que muchas empresas ya la están adoptando. Según una encuesta del 2018, la adopción de I.A. aumentó del 38% en 2017 al 61% en 2018. Esto ocurrió en varias industrias, incluyendo la atención médica, la producción y los servicios financieros. Sin embargo, se señaló muy rápidamente que uno de los mayores desafíos para la implementación exitosa de la I.A. es la calidad de la información sobre la que trabaja, específicamente, el acceso, la protección, la integración y la preparación de los datos.

Muchas empresas luchan por gestionar las enormes cantidades de datos no estructurados necesarios para apoyar sus proyectos y traducirlos en conjuntos de entrenamiento utilizables y categorizados, indispensables para alimentar los algoritmos. Algunas empresas se encuentran ahogadas en datos, y otras, al contrario, requieren de información científica especializada difícil de conseguir en el dominio público. En la mayoría de los casos, los conjuntos de datos disponibles tardan mucho tiempo en adquirirse y transformarse para el fin previsto. Desde las taxonomías y clasificaciones hasta la conexión de conjuntos de datos dispares, las iniciativas de I.A. solo funcionan con una gran cantidad de preparación de los datos.

Un científico de datos puede llegar a dedicar hasta el 80% de su tiempo a la preparación de los mismos. Hay una gran variedad de repositorios públicos de información científica, pero todos tienen problemas inherentes, como errores de transcripción, unidades mal etiquetadas y un lenguaje de patentes demasiado complejo. Otro reto importante es la traducción de los contenidos. Las patentes, por ejemplo, se publican en más de 60 idiomas en todo el mundo. Taxonomías, enlaces semánticos y categorización de datos son esenciales para construir y mantener un conjunto de datos de alta calidad que permite que los científicos centren su tiempo y energía en optimizar los algoritmos.

Como dice el refrán, la calidad es importante, tanto si se trata de mariscos como de macrodatos. No coma sushi de origen dudoso y tampoco alimente sus algoritmos con datos de baja calidad. Para que los datos de alta calidad se aprovechen al máximo, deben estar limpios y normalizados con un significado semántico y unas conexiones correctas. Así, si sus sistemas de I.A. o algoritmos de Aprendizaje Automático no están a la altura de sus expectativas, lo más probable es que deba repasar la calidad de su información. La capacidad de traducir, extraer, conectar y normalizar rápidamente los datos pertinentes tiene un valor incalculable para el éxito de los proyectos de I.A.

Acceda al artículo completo en inglés en el blog de CAS.

Descargue nuestro whitepaper para aprender cómo CAS puede mejorar su estrategia de transformación digital.

Aprenda más sobre cómo los científicos de CAS lo pueden ayudar a aprovechar el potencial de los macrodatos.

Para profundizar sobre temas de I.A. e Aprendizaje Automático, visítenos y asista a nuestras ponencias en el CIIT 2021.

Leave A Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *