¿Qué es y cómo opera la minería de datos?
Neuquén anunció una inversión de FMI Minecraft Mining LDT en un proyecto de minería de datos en Zapala. El alto consumo energético se cubriría con un gasoducto desde Vaca Muerta. Más allá de los cuestionamientos ambientales, una investigadora de la UNS explica de qué se trata.
FM De la Calle dialogó con Ana Maguitman, profesora asociada del Departamento de Ciencias e Ingeniería de la Computación de la UNS, investigadora del Conicet y directora del grupo de Gestión de Conocimiento y Recuperación de la Información de la casa de altos estudios.
“Cuando hablamos de minería de datos nos referimos a un campo de las ciencias de la computación. La palabra minería se inspira en la actividad económica relacionada a la extracción de materiales que tienen algún tipo de valor. Cuando hablamos de minería de datos tratamos de hacer algo similar pero con un gran volumen de datos”.
“Se intenta descubrir patrones, contar una historia a partir de los datos, que los datos nos brinden información valiosa para algún problema que se quiere resolver y para ello tomamos técnicas de la inteligencia artificial y de la estadística”, explicó Maguitman.
“Dentro de la minería de datos hay diferentes ramas. Los datos pueden tener muchas formas. Pueden ser estructurados en tablas, pueden ser sólo texto o señales que uno va percibiendo a través de distintos sensores y, de esa forma, uno tiene varias formas de aplicar minería de datos”.
La especialista sostuvo que “funciona a través de algoritmos porque lo que buscamos en ciencias de la computación es automatizar procesos. Se intenta hacer de manera automática porque son grandes volúmenes de datos, aunque siempre puede participar el humano decidiendo ciertos parámetros o aportando cierto tipo de retroalimentación para que los algoritmos funcionen mejor”.
“Un ejemplo muy clásico es el de minería de datos aplicado a compras o transacciones que realicen las personas, por ejemplo, en un supermercado. Es común el problema de ver cómo suelen agruparse los ítems que las personas compran y eso puede guiar a quienes organizan las góndolas para agrupar aquellos productos que tienden a comprarse juntos. Un ejemplo famoso es el que dice que los viernes a la noche es muy común que la gente compre pañales y cervezas al mismo tiempo, son diferentes indicadores que pueden llegar a servir tanto para compras presenciales como para crear un sistema de compras por internet. En la medida en que el usuario está comprando se le pueden ir sugiriendo otros productos que tienden a ser comprados conjuntamente”.
- Estos datos son los que ofrecemos a distintas plataformas ¿Se comercializan estos datos? ¿Cómo se obtienen?
Probablemente hayas notado que muchísimos lugares donde uno compra te piden el número de DNI, te hacen ofertas si vos te registrás. De esa manera cada vendedor puede tener su estrategia para recolectar estos datos. Por supuesto también pueden tener su estrategia para compartir los datos. En algunos casos avisan que sus datos no serán compartidos, dependerá de las cuestiones de privacidad que se puedan llegar a establecer. Es distinto el caso de los consumos en un supermercado, que casos que involucren historias clínicas donde la información debería ser privada. Hay diferentes niveles de seguridad.
Uno puede hacer minería en páginas web, Google es un gran ejemplo de empresa que ha hecho exitosamente minería de la web, no solo del contenido o texto que uno accede sino también minería de estructura de la web, pensando a la web como un gran graph donde hay nodos conectados entre sí a través de hiperenlaces que nos permiten navegar a través de las páginas.
A pesar de que cuando uno busca en Google a través de una serie de palabras clave los resultados tal vez sean cientos de miles, el buscador tiene la capacidad de mostrarnos primero los resultados más relevantes.
Además de realizar minería de estructura, los buscadores como Google hacen minería de uso. Tiene que ver con saber cómo los usuarios interactúan con su buscador y así, por ejemplo, predecir el tipo de consulta que el usuario realiza. Seguramente han notado que cuando uno comienza a escribir una consulta Google lo autocompleta o nos ofrece las opciones más corrientes. Eso es por la minería de uso.
También se hace minería sobre un conjunto de noticias y sobre redes sociales para detectar argumentos. Por ejemplo, uno puede analizar un conjunto de twits que hablen sobre vacunas contra el Covid y dentro de ese universo seguramente haya posturas a favor y en contra de las vacunas. La minería de argumentos es un área interesante.
- El proyecto de Zapala se refieren a “minar criptomonedas”. ¿Qué significa?
Cuando hablamos de criptomonedas estamos hablando de otra cuestión que tiene más que ver con el uso de tecnologías de blockchain y con tratar de aprovechar esos recursos computacionales para generar algún tipo de rédito económico. Lo que hacemos nosotros dentro de la inteligencia artificial con respecto a la minería de datos apunta más a la obtención de patrones que nos van a permitir tomar decisiones.
“Sin la obtención de regularidades no podríamos hacer inteligencia artificial. Esta se basa mucho en patrones y en que uno puede definir reglas que generalicen esos patrones y entregársela a un algoritmo para que el algoritmo trabaje por nosotros”.
- ¿Qué es el blockchain?
Es una forma de aprovechar los recursos computacionales para de alguna forma no centralizada -porque parte de la gracia de las criptomonedas es mantener la información de manera descentralizada- tratar de obtener valor para cualquier tipo de proceso, ya sea algo económico o ya sea algo que tenga que ver con cualquier tipo de toma de decisiones. Existen protocolos, algunos mejores que otros, que van a permitir realizar eso con un buen nivel de seguridad. Justamente esto de descentralizar es lo que va a poder permitir poder trabajar de forma segura, con capacidad de réplica. Si uno piensa en sitios web con un solo servidor, eso no es robusto, si algo le llega a pasar al servidor quedaría todo desconectado, sin servicio. En cambio cuando el sistema es peer to peer uno tiene la posibilidad de acceder a servicios no centralizados, y es más seguro.