Le célèbre assistant virtuel (ou robot conversationnel) ChatGPT, symbole d'une nouvelle vague de technologies grand public, fait partie d'une grande famille d'applications d'IA, celle des intelligences artificielles génératives (IAG). Les IAG fonctionnent à l'aide de modèles statistiques entraînés sur des mégadonnées, qui peuvent être de différents formats (textuel, audio, vidéo, audiovisuel).
Les IAG textuelles comme ChatGPT et ses semblables (quelques exemples ici) sont basées du des grands modèles de langage (GML, ou LLM en anglais), développés à partir de réseaux neuronaux, qui sont eux-mêmes des algorithmes issus de l'apprentissage automatique.
Les grands modèles de langage comme ChatGPT sont donc des modèles probabilistes, c'est-à-dire qu'ils génèrent des phrases plausibles en se basant sur les probabilités apprises de cooccurrence des mots dans une phrase.
Voici quelques d'ouvrages introductifs présents dans les collections de l'UdS sur les grands modèles de langage et les transformeurs génératifs.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. et Polosukhin, I. (2023, 1 août). Attention Is All You Need. arXiv. https://doi.org/10.48550/arXiv.1706.03762