@sebsauvage Bien d'accord. Mais dans le cas de la documentation libre, on a déjà de très bons corpus de données. Donc c'est encore une fois la logique opposée comparée aux LLMs généralistes/énormes : plutôt que de tout aspirer et essayer de "nettoyer", partir de zéro et n'inclure que des bonnes données, et pas plus que ce dont on a besoin. Et ce ne serait pas pour remplacer mais pour compléter la documentation déjà existante (en somme, comme une interface différente pour la lire).
On pourrait pousser la logique à l'extrême : un mini-language model pour complémenter chaque documentation technique, au lieu d'un plus grand modèle qui serait entraîné sur un corpus de plusieurs documentations (mais qui serait déjà bien plus petit que les modèles généralistes).
Franchement, un "mini-LM Unix" entraîné sur toutes les pages man & info, qui me donnerait la commande qui va bien à partir d'une description en langage naturel (sans halluciner trop), et qui tournerait en local sans trop faire transpirer l'ordi, je serais ravi de m'en servir. C'est très certainement possible à produire, et ça arrivera sûrement quand big tech commencera à demander le vrai prix pour accéder à ses modèles.