Le traitement du langage naturel (NLP) est un domaine fascinant, situé à la croisée de la linguistique, de l'informatique et de l'intelligence artificielle. Il vise à doter les machines de la capacité à comprendre, interpréter et générer le langage humain.

Le projet “Tokeh” que nous développons ici a pour objectif de nous permettre d'apprendre les fondements du NLP à travers des projets concrets, et de bâtir une documentation intuitive, claire et progressive de nos travaux.

Le plan proposé s'inspire du livre : « An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models » de Dan Jurafsky et James H. Martin.


Table des matières

Introduction

Mots & Tokens

Les modèles de langue N-Grams

Regression logistique & Classification de texte

Les modèles d’Embeddings

Les grands modèles de langue (LLMs)

L’architecture Transformers

L’architecture RAG

La traduction de texte

La reconnaissance vocale automatique (ASR)

La synthèse vocale (TTS)


https://github.com/Classmate-Mentoring-Program/tokeh


Team