Towards Lossless Token Pruning in Late-Interaction Retrieval Models
Vers un élagage de tokens sans coût dans les modèles de récupération à interaction tardive
Résumé
Late interaction neural IR models like ColBERT offer a competitive effectiveness-efficiency trade-off across many benchmarks. However, they require a huge memory space to store the contextual representation for all the document tokens. Some works have proposed using either heuristics or statistical-based techniques to prune tokens from each document. This however doesn't guarantee that the removed tokens have no impact on the retrieval score. Our work uses a principled approach to define how to prune tokens without impacting the score between a document and a query. We introduce three regularization losses, that induce a solution with high pruning ratios, as well as two pruning strategies. We study them experimentally (in and out-domain), showing that we can preserve ColBERT's performance while using only 30% of the tokens.
Les modèles de RI neuronaux à interaction tardive comme ColBERT offrent un compromis compétitif entre efficacité et efficience sur de nombreuses bases de référence. Cependant, ils nécessitent un espace mémoire considérable pour stocker les représentations contextuelles de tous les tokens des documents. Certains travaux ont proposé d'utiliser soit des heuristiques, soit des techniques basées sur les statistiques pour élaguer des tokens dans chaque document. Cependant, cela ne garantit pas que les tokens supprimés n'aient aucun impact sur le score de récupération. Notre travail utilise une approche méthodique pour définir comment élaguer des tokens sans affecter le score entre un document et une question. Nous introduisons trois coûts de régularisation, qui induisent une solution avec des taux d'élagage élevés, ainsi que deux stratégies d'élagage. Nous les étudions expérimentalement (en domaine interne et externe), démontrant que nous pouvons préserver les performances de ColBERT tout en n'utilisant que 30\% des tokens.
Mots clés
- CCS Concepts
- Information retrieval Information Retrieval
- Retrieval models and ranking
- Information systems → Document representation
- Efficiency-Effectiveness Trade-off
- Multi-vector Retrieval
- Dense Retrieval
- CCS Concepts Information systems → Document representation Retrieval models and ranking Information retrieval Information Retrieval
| Origine | Fichiers produits par l'(les) auteur(s) |
|---|---|
| Licence |