30 mayo 2020

Datathon Cervecistas

Hoy hemos terminado el prototipo del proyecto con el que participamos en el Datathon Cervecistas organizado por la plataforma Madrid Databeers.

A partir de un dataset de 1197 cervezas implementamos un sistema de recomendación basado en un algoritmo de similitud coseno. El dataset contiene las características de cada cerveza (color, amargor, graduación, etc.) y otros datos descriptivos como el "maridaje" o las "notas de cata".

El prototipo es muy sencillo, se trata de una interfaz que permite seleccionar distintos atributos de la cerveza, presentados según sus fases de elaboración:

Malteado: color y maltosidad.
Molienda y maceración: acidez y aromas a frutas.
Filtrado y cocción: amargor y lúpulos.
Fermetación: graduación y especias.
Maduración y envasado: recomendación final

En el caso de la graduación por ejemplo, es fácil decidir si quieres una cerveza con más o menos alcohol, pero es difícil aplicar ese tipo de selección al resto de atributos si no eres un experto en cervezas.

Desde el punto de vista de experiencia de usuario, la idea principal es que resultará más intuitivo decidir si quieres una cerveza más o menos común, en vez de seleccionar un valor númerico. Por eso, usamos histogramas que muestran la distribución de los atributos según el número total de cervezas en la muestra.

Screencast del funcionamiento:

Si el proyecto resulta seleccionado, completaremos la implementación y probablemente hagamos público parte del código. Kudos para Pelayo y Alex, que han tenido una paciencia infinita con mi desconocimiento absoluto de Python, Pandas, y todos los artefactos que usan los científicos de datos modernos.