Minería de datos: relaciones ocultas de la información

0

Junio de 2012
Ivan Obolensky

En la mañana del martes, Tom Larking, gerente de un supermercado local de cadena, recibió un correo electrónico de la sede corporativa. En él le decían que en el reabastecimiento de los miércoles y los viernes por la noche debía situar un exhibidor grande del paquete de seis cervezas de Bud Lite en los extremos de cada uno de los pasillos de pañales y productos para bebés. Además, solo el jueves y el sábado se aumentarían hasta el rango superior de la escala los precios de todas las cervezas y pañales.

¿De dónde salió este mensaje para el gerente?

Fue el resultado de una búsqueda de minería de datos realizada en las oficinas centrales, que descubrió que en esta tienda en particular los hombres compraban grandes cantidades de paquetes de pañales los jueves y los sábados y llevaban a la vez uno o dos paquetes de seis cervezas Bud Lite. Al subir los precios y facilitar el acceso a la cerveza, la gerencia de la cadena pudo aprovechar los patrones de compra del cliente para mover artículos seleccionados y obtener mayores utilidades.

Estratégicamente, la tienda puede usar ahora las ganancias obtenidas en estas ventas para compensar el descuento de otros artículos que no se mueven bien, y aun así cumplir sus metas de rentabilidad.

Pensemos ahora cuando se hace este análisis para cientos de artículos, con instrucciones específicas en cuanto a su ubicación en los estantes y a los precios que deben tener. Con la minería de datos y el análisis estadístico de las ventas, los inventarios, el espacio en las estanterías, el reabastecimiento y los movimientos de artículos específicos, las grandes cadenas de venta minorista pueden administrar estratégicamente sus inventarios y lograr un mejor rendimiento.1

Dos puntos importantes con respecto a la minería de datos se destacan en esta historia:

En primer lugar, es sorprendente el conocimiento sobre el alto número de hombres que entran en esta tienda en particular y que compran pañales y cerveza los jueves y sábados. Lo más probable es que sin una búsqueda de minería de datos esta correlación no se hubiese establecido.

En segundo lugar, fue la combinación del conocimiento y la capacidad de utilizarlo lo que permitió a la tienda aprovechar un vínculo real entre la cerveza y los pañales.

Es la minería de datos en plena acción, y se está aplicando en todas partes, en las pequeñas tiendas de las estaciones de servicio y en los exclusivos y lujosos almacenes; en el Servicio de Impuestos Internos (Internal Revenue Service o IRS); en el Departamento de Seguridad Nacional (Department of Homeland Security o DHS); y hasta en los casinos de Las Vegas y en las compañías de tarjetas de crédito.

La minería de datos es el descubrimiento de relaciones de información antes desconocidas y potencialmente útiles. El término comprende varias disciplinas. Se inicia con la adquisición y el almacenamiento de información en bases de datos. Los datos se preparan para el análisis y después son procesados mediante distintos algoritmos y métodos estadísticos, así como a través de inteligencia artificial, para descubrir relaciones que no son obvias. Una vez que se encuentra un patrón que no es evidente, debe verificarse que sea real, y luego se diseña un plan de acción para sacar provecho de la información.

Las partes más costosas de la minería de datos son la recolección, el almacenamiento y la transformación de los datos en un formato que permita su procesamiento. Los conjuntos de datos en estos días a menudo implican información contenida en varios terabytes. Un terabyte son 1.000 millardos de bytes de información. Es un proceso costoso, y hallar relaciones significativas y útiles puede exigir una gran cantidad de trabajo.

El primer paso consiste en la simple descripción de los datos. Un ejemplo podría ser el de los números de las placas de los automóviles. Cada número tiene que introducirse correctamente, uno a la vez. Otra categoría podría hacerse con el año y la marca de los autos. Esto significaría traducir el nombre del fabricante en un solo número y el tipo de modelo en otro e ingresar estos datos al lado del número correcto de la placa.2

Una vez que la información ingresa en una base de datos, se puede utilizar el poder de procesamiento de una computadora para resumir esta información, sumando por ejemplo todos los autos con matrículas vigentes producidos por un fabricante específico. Se podría ampliar esta indagación haciendo un censo año por año y averiguando el número de vehículos que cada fabricante tiene en circulación, y luego graficar los resultados. Se pueden desagregar luego los datos en los autos nuevos sumados ese año. Mediante el análisis de los datos graficados es posible obtener una idea de qué compañía automotriz está introduciendo el mayor número de automóviles nuevos en las calles en un año determinado.

A pesar de que estos datos son interesantes, no son particularmente útiles excepto como información fáctica. Por sí misma, esta información no crea un modelo predictivo del futuro que una empresa o un individuo puedan usar para obtener una ventaja.

Supongamos que existe una fuerte correlación entre aquellos que compraron un determinado tipo de producto para automóvil y los propietarios de autos blancos que tienen doce años de uso. Esto podría ser importante. Pero incluso con esta información potencialmente valiosa quedan pendientes dos preguntas. ¿Existe un vínculo real entre los clientes que poseen autos blancos de doce años y las ventas de los productos? Y, ¿puede utilizarse la información de tal manera que genere una ventaja competitiva?

La minería de datos tiene que ver con la búsqueda de patrones, pero el valor de esos patrones y lo que pueda hacerse con ellos depende del conocimiento experto que el usuario tenga de su negocio y de su capacidad para verificar la existencia real de dicho patrón.

Este vínculo con el mundo real se acentúa porque la correlación y la coincidencia no implican causalidad. El hecho de que algo suceda simultáneamente con otra cosa no establece una relación de causalidad.

En el mercado de valores, algunos inversores creen que se debe mirar el comportamiento del mercado durante la primera semana y el primer mes del año para predecir cuáles serán los resultados a lo largo de todo el año. ¿Existe una conexión causal o es solo coincidencia? ¿Arriesgaría uno su dinero sobre la base de esta correlación?

¿Qué sucedería si se aplicaran en una semana 40 millones de vacunas a 40 millones de personas, todos de más de 50 años de edad?

Supongamos que la probabilidad de que cualquier persona entre los 40 millones muriera de repente por alguna razón en un período de 24 horas fuera de 1 en 100.000. Esto significa que podría esperarse que 400 de los 40 millones murieran en un día determinado. Teniendo en cuenta esta información, ¿cuál es la probabilidad de que un individuo que recibe la vacuna muera en el transcurso de dos horas? Si muriese, ¿se trataría de una cuestión de casualidad o de causalidad? ¿La culpa sería de la vacuna?

Se trata de una coincidencia importante con implicaciones en el mundo real en términos de la ley y de las reclamaciones que se hacen a las compañías de seguros. En caso de que se piense que lo anterior es completamente hipotético, basta considerar el hecho de que durante el fiasco de la vacuna contra la gripe porcina de 1976, el Gobierno de Estados Unidos terminó pagando 1,3 mil millones de dólares por reclamaciones. Se culpó a la vacuna de 25 muertes. Los abogados del Gobierno sostenían que muchas de estas muertes fueron más por coincidencia que por causalidad. Teniendo en cuenta el gran número de personas que recibieron la vacuna, cierto número correspondería a una simple coincidencia. Este argumento se sostuvo hasta que un número estadísticamente significativo de receptores desarrollaron el paralizante síndrome de Guilliam-Barré después de haber sido inyectados con la vacuna contra la gripa porcina. El caso del Gobierno se derrumbó, y se creó un fondo subsidiado por el Gobierno de Estados Unidos para atender las reclamaciones. La coincidencia terminó siendo causal.3

En el ejemplo de los productos para automóviles y los propietarios de autos blancos con doce años de uso, ¿valdría la pena enviar un correo masivo a todos los propietarios de autos blancos con once años de uso, buscando hacer negocios con ellos en el duodécimo año?

¿Existe alguna forma de verificar que este modelo funcionará antes de que el propietario de la empresa comprometa los recursos en una campaña? Una campaña de prueba podría justificarse, lo mismo que una evaluación de los resultados para determinar si una campaña más extensa funcionaría bien.

El éxito de la minería de datos depende de la calidad de los datos aportados y de la capacidad para inspeccionar y utilizar los resultados con inteligencia. No es una receta para el éxito instantáneo en los negocios, el gobierno o en las tareas de recopilación de datos de inteligencia. Se requiere la acumulación cuidadosa y el ingreso preciso de la información, unidos a un conocimiento real del negocio en que nos movemos, que nos permita tomar las relaciones a menudo sorprendentes que se descubren y convertirlas en una ventaja constructiva. Pero cuando se utiliza correctamente, la minería de datos puede generar una ventaja importante para el usuario.


1 Palace, B. (1996, primavera). Data Mining. Consultado el 19 de junio de 2012, en http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/index.htm

2 Two Crows Corporation. (2005). Introduction to Data Mining and Knowledge Discovery, Third Edition. Consultado el 19 de junio de 2012, de Two Crows Consulting: http://www.twocrows.com/intro-dm.pdf

3 Freedman, D.A., & Stark, P.B. (1999, agosto 15). The Swine Flu Vaccine and Guillain-Barre Syndrome: A Case Study in Relative Risk and Specific Causation. Consultado el 19 de junio de 2012, del Department of Statistics, University of California, Berkeley: http://www.stat.berkeley.edu/~census/546.pdf


Lea su blog de autor en inglés o la traducción literaria al español de su novela, El ojo de la luna.

¿Interesado en reproducir uno de nuestros artículos? Consulte nuestros requisitos de reproducción.

© 2012 Dynamic Doingness, Inc. Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida sin el permiso escrito del autor.

Leave a Reply