Minería de datos: relaciones ocultas de la información

0

Junio de 2012
Iván Obolensky

En la mañana del martes, Tom Larking, gerente de un supermercado local de cadena, recibió un correo electrónico de la sede corporativa. En él le decían que en el reabastecimiento que se hace los miércoles y los viernes por la noche debía situar un exhibidor grande del paquete de seis cervezas de Bud Lite en los extremos de cada uno de los pasillos de pañales y productos para bebés. Además, solo el jueves y el sábado se aumentarían hasta el rango superior de la escala los precios de todas las cervezas y pañales.

¿De dónde salió este mensaje para el gerente?

El mensaje fue el resultado de una búsqueda de minería de datos realizada en las oficinas centrales, que descubrió que en esta tienda en particular los hombres compraban grandes cantidades de paquetes de pañales los jueves y los sábados y llevaban a la vez uno o dos paquetes de seis cervezas Bud Lite. Al subir los precios y hacer más accesible la cerveza, la gerencia de la cadena pudo aprovechar los patrones de compra del cliente para mover artículos seleccionados a precios más altos.

Estratégicamente, la tienda puede usar ahora la utilidad obtenida en estas ventas para compensar el descuento de otros artículos que no se mueven bien, y aun así cumplir sus metas de rentabilidad.

Imagínense este análisis hecho para cientos de artículos, con instrucciones específicas en cuanto al estante y la fijación de los precios. Mediante la minería de datos y el análisis estadístico de las ventas, los inventarios, el espacio en las estanterías, el reabastecimiento y los movimientos de artículos específicos, las grandes cadenas de venta minorista pueden administrar estratégicamente sus inventarios y lograr un mejor rendimiento.1

Dos puntos importantes con respecto a la minería de datos se destacan en esta historia:

En primer lugar, es sorprendente el conocimiento sobre el gran número de hombres que entran en esta tienda en particular y que compran pañales y cerveza los jueves y sábados. Lo más probable es que sin una búsqueda de minería de datos esta correlación no se hubiese establecido.

En segundo lugar, fue la combinación del conocimiento y la capacidad de utilizarlo lo que permitió a la tienda aprovechar un vínculo real entre la cerveza y los pañales.

Esta es la minería de datos en plena operación, y se está dando en todas partes, desde la tienda de la estación de servicio hasta las tiendas minoristas exclusivas; desde el Servicio de Impuestos Internos (Internal Revenue Service o IRS) hasta el Departamento de Seguridad Nacional (Department of Homeland Security o DHS); y desde casinos de Las Vegas hasta las compañías de tarjetas de crédito.

La minería de datos es el descubrimiento de relaciones de información antes desconocidas y potencialmente útiles. El término comprende varias disciplinas. Se inicia con la adquisición y el almacenamiento de información en bases de datos. Los datos se preparan para el análisis y después se someten a distintos algoritmos, métodos estadísticos, así como a inteligencia artificial para su procesamiento y para descubrir relaciones que no son obvias. Una vez que se encuentra un patrón que no es evidente, debe verificarse que sea real, y luego se diseña un plan de acción para sacar provecho de la información.

Las partes más costosas de la minería de datos son la recolección, el almacenamiento y la transformación de los datos en un formato que permita su procesamiento. Los conjuntos de datos en estos días a menudo implican información contenida en varios terabytes. Un terabyte son 1.000 millardos de bytes de información. Es un proceso costoso, y hallar relaciones significativas y útiles puede exigir una gran cantidad de trabajo.

El primer paso consiste en describir los datos. Un ejemplo podría ser los números de las placas de los automóviles. Cada número tiene que introducirse correctamente, uno a la vez. Otra categoría podría hacerse con el año y la marca de los autos. Esto significaría traducir el nombre del fabricante en un solo número y el tipo de modelo en otro e ingresar estos datos al lado del número correcto de la placa.2

Una vez que la información ingresa en una base de datos, se puede utilizar el poder de procesamiento de una computadora para resumir esta información, sumando por ejemplo todos los autos con matrículas vigentes producidos por un fabricante específico. Se podría ampliar esta indagación haciendo un censo año por año y averiguando el número de vehículos que cada fabricante tiene en circulación, y luego graficar los resultados. Se pueden desagregar luego los datos en los autos nuevos sumados ese año. Mediante el análisis de los datos graficados es posible obtener una idea de qué compañía automotriz está introduciendo el mayor número de automóviles nuevos en las calles en un año determinado.

A pesar de que estos datos son interesantes, no son particularmente útiles excepto como dato de la realidad. Por sí misma, esta información no construye un modelo predictivo del futuro que una empresa o un individuo puedan usar para obtener una ventaja.

Supongamos que existe una fuerte correlación entre aquellos que compraron un determinado tipo de producto para automóvil y los propietarios de autos blancos que tienen doce años de uso. Esto podría ser importante. Pero incluso con esta información potencialmente valiosa quedan pendientes dos preguntas. ¿Existe un vínculo real entre los clientes que poseen autos blancos de doce años y las ventas de los productos? Y, ¿puede utilizarse la información de tal manera que genere una ventaja competitiva?

La minería de datos tiene que ver con la búsqueda de patrones, pero el valor de esos patrones y lo que pueda hacerse con ellos depende del conocimiento experto que el usuario tenga de su negocio y de su capacidad para verificar la existencia real de dicho patrón.

Este vínculo con el mundo real se acentúa porque la correlación y la coincidencia no implican causalidad. El hecho de que algo suceda simultáneamente con otra cosa no establece una relación de causalidad.

En el mercado de valores, algunos inversores creen que se debe mirar el comportamiento del mercado durante la primera semana y el primer mes del año para predecir cuáles serán los resultados a lo largo de todo el año. ¿Existe una conexión causal o es solo coincidencia? ¿Arriesgaría uno su dinero sobre la base de esta correlación?

¿Qué sucedería si se dieran en una semana 40 millones de vacunas a 40 millones de personas, todos de más de 50 años de edad?

Supongamos que la probabilidad de que cualquier persona dentro de los 40 millones muriera de repente por alguna razón en un período de 24 horas es de 1 en 100.000. Esto significa que se espera que 400 de los 40 millones mueran en un día determinado. Teniendo en cuenta esta información, ¿cuál es la probabilidad de que un individuo que recibe la vacuna muera en el transcurso de dos horas? Si muriese, ¿se trataría de una cuestión de casualidad o de causalidad? ¿La culpa sería de la vacuna?

Se trata de una coincidencia importante con implicaciones en el mundo real en términos de la ley y de las reclamaciones que se hacen a las compañías de seguros. En caso de que se piense que lo anterior es completamente hipotético, basta considerar el hecho de que durante el fiasco de la vacuna contra la gripe porcina de 1976, el Gobierno de Estados Unidos terminó pagando 1,3 mil millones de dólares por reclamaciones. Se culpó a la vacuna de 25 muertes. Los abogados del Gobierno sostenían que muchas de estas muertes fueron más por coincidencia que por causalidad. Teniendo en cuenta el gran número de personas que recibieron la vacuna, cierto número correspondería a una simple coincidencia. Este argumento se sostuvo hasta que un número estadísticamente significativo de receptores desarrollaron el paralizante síndrome de Guilliam-Barré después de haber sido inyectados con la vacuna contra la gripa porcina. El caso del Gobierno se derrumbó, y se creó un fondo subsidiado por el Gobierno de Estados Unidos para atender las reclamaciones. La coincidencia terminó siendo causal.3

En el ejemplo de los productos para automóviles y los propietarios de autos blancos con doce años de uso, ¿valdría la pena enviar un correo masivo a todos los propietarios de autos blancos con once años de uso, buscando hacer negocios con ellos en el duodécimo año?

¿Existe alguna forma de verificar que este modelo funcionará antes de que el propietario de la empresa comprometa los recursos en una campaña? Una campaña de prueba podría justificarse , así como una evaluación de los resultados para determinar si una más extensa funcionaría bien.

El éxito de la minería de datos depende de la calidad de los datos aportados y de la capacidad para inspeccionar y utilizar los resultados con inteligencia. No es una receta para el éxito instantáneo en los negocios, el gobierno o la recopilación de datos de inteligencia. Se requiere la acumulación cuidadosa y el ingreso preciso de la información, unidos a un conocimiento real del negocio en que nos movamos, que nos permita tomar las relaciones a menudo sorprendentes que se descubren y convertirlas en una ventaja constructiva. Pero cuando se utiliza correctamente, la minería de datos puede generar una ventaja importante para el usuario.


1 Palace, B. (1996, primavera). Data Mining. Consultado el 19 de junio de 2012, en http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/index.htm

2 Two Crows Corporation. (2005). Introduction to Data Mining and Knowledge Discovery, Third Edition. Consultado el 19 de junio de 2012, de Two Crows Consulting: http://www.twocrows.com/intro-dm.pdf

3 Freedman, D.A., & Stark, P.B. (1999, agosto 15). The Swine Flu Vaccine and Guillain-Barre Syndrome: A Case Study in Relative Risk and Specific Causation. Consultado el 19 de junio de 2012, del Department of Statistics, University of California, Berkeley: http://www.stat.berkeley.edu/~census/546.pdf


Si desea inscribirse en nuestro artículo mensual, por favor haga clic aquí.

¿Interesado en reproducir uno de nuestros artículos? Consulte nuestros requisitos de reproducción.

© 2012 Dynamic Doingness, Inc. Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida sin el permiso escrito del autor.

Leave a Reply