Audio-based cold-start in music recommendation systems

Borges, Rodrigo Carvalho

doi:10.11606/T.45.2022.tde-14102022-124655

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.45.2022.tde-14102022-124655

Document

Thèse de Doctorat

Auteur

Borges, Rodrigo Carvalho (Catálogo USP)

Nom complet

Rodrigo Carvalho Borges

Adresse Mail

Unité de l'USP

Instituto de Matemática e Estatística

Domain de Connaissance

Informatique

Date de Soutenance

2022-07-20

Editeur

São Paulo, 2022

Directeur

Queiroz, Marcelo Gomes de (Catálogo USP)

Jury

Queiroz, Marcelo Gomes de (Président)
Andrade, Nazareno Ferreira de
Hirata Junior, Roberto
Jorge, Alípio Mário Guedes
Santos, Rodrygo Luis Teodoro

Titre en anglais

Audio-based cold-start in music recommendation systems

Mots-clés en anglais

Audio content
Audio-based music recommendation
Cold-start
Music recommendation systems

Resumé en anglais

Music streaming platforms have become popular in the last decades due to the increasing number of tracks available online. The track catalogues offered by these platforms are usually too big to be searched manually, and automatic recommendation algorithms might be implemented for helping users navigate on these platforms. More specifically, Music Recommendation Systems (MRS) are designed for analyzing user listening behaviours and for predicting the songs that will be played in the near future by one specific user or within a listening session. But in the case new tracks are added to a platform, also known as the cold-start problem, no listening data is available, and the system needs to somehow incorporate these tracks into its recommendation algorithms. In this work, we propose methods that leverage the audio associated with tracks that were recently added to streaming platforms as an alternative for compensating the lack of interaction data. Our propositions are elaborated considering collaborative filtering (CF), sequence-aware (SA), and stream-based (SB) recommendation systems, and audio files are considered represented as codeword histograms, Mel-spectrograms, and raw waveforms. In the first experiment, we propose a method that applies Convolutional Neural Networks (CNN) for mapping audio content to profiles containing the users who listened to a track. In a second experiment, Recurrent Neural Networks (RNN) are trained for reproducing the audio feature associated with the upcoming tracks within a listening session, given the audio feature associated with the current track. An inverted index structure is used for retrieving tracks given their estimated audio feature in an efficient way. In a third experiment, we propose a model that maps track/track transitions to an audio domain in a multi-level Markov Chain fashion. The method allows dynamic updates, allowing its application to scenarios of data streams. The experiments were conducted using the LFM-1b music consumption dataset, and audio previews downloaded from Spotify. Our methods presented competitive prediction results in situations of cold-start in the case of CF and SA recommendation systems. The novel stream-based method is able to recommend tracks with an accuracy that is comparable to the accuracy measured for conventional rating-based methods, being based exclusively on audio content.

Titre en portugais

Sistemas de recomendação de música baseados em áudio

Mots-clés en portugais

Conteúdo de áudio
Sistemas de recomendação de música
Sistemas de recomendação de música baseados em áudio

Resumé en portugais

Plataformas de streaming de música se tornaram populares nas últimas décadas devido ao crescente número de faixas disponíveis on-line. Os catálogos de faixas oferecidos por estas plataformas são, geralmente, muito grandes para serem pesquisados manualmente, e algoritmos de recomendação automática podem ser implementados para ajudar os usuários a navegar nestas plataformas. Mais especificamente, Sistemas de Recomendação Musical (MRS) são projetados para analisar os comportamentos de escuta dos usuários e para prever as músicas que serão tocadas em um futuro próximo por um usuário específico ou dentro de uma sessão de escuta. Mas quando novas faixas são adicionadas a uma plataforma, também conhecido como problema de cold-start, os dados de audição não estão disponíveis e o sistema precisa incorporar estas faixas em seus algoritmos de alguma forma. Neste trabalho, propomos métodos que utilizam o áudio associado às faixas que foram recentemente adicionadas às plataformas de streaming como uma alternativa para compensar a falta de dados de interação. Nossas propostas são elaboradas considerando sistemas de recomendação baseados em Filtragem Colaborativa (CF), em sequências de dados de escuta (SA) e em stream de dados de escuta (SB). Os arquivos de áudio são considerados representados como histogramas de palavra-chave, mel-spectrogramas e formas de onda puras. Em um primeira experimento, propomos um método que aplica Convolutional Neural Networks (CNN) para mapear conteúdo de áudio a um perfil contendo os usuários que ouviram a uma faixa. Em um segundo experimento, Redes Neurais Recorrentes (RNN) são treinadas para reproduzir os conteúdos de áudio associados às próximas faixas dentro de uma sessão de escuta, dado o conteúdo de áudio associado à faixa atual. Uma estrutura de índice invertido é usada para a recuperação de faixas, dado seu conteúdo de áudio de forma eficiente. Em um terceiro experimento, propomos um modelo que mapeia as transições de faixa/faixa para um domínio de áudio utilizando uma cadeia de Markov de vários níveis. O método permite atualizações dinâmicas, permitindo sua aplicação a cenários de intenso fluxo de dados. Os experimentos foram conduzidos utilizando o conjunto de dados de consumo de música LFM-1b, e previews de áudio baixados de Spotify. Nossos métodos apresentaram resultados de previsão competitivos em situações de cold-start no caso de sistemas de recomendação CF e SA. O novo método baseado em fluxo é capaz de recomendar faixas com uma precisão comparável à precisão medida para métodos convencionais baseados em dados de escuta, sendo baseado exclusivamente no conteúdo de áudio.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

tese.pdf (9.55 Mbytes)

Date de Publication

2023-01-30

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.