Notes:

Retour à la page de Natasha sur l'apprentissage automatique
[1] [formule] ces dispositifs ont une connaissance du système qu'il régulent limitée à l'historique des manoeuvres qu'ils ont eux-mêmes effectuées. En particulier, une bonne connaissance du système inconnu requiert une non-optimalité du contrôle, au moins au début (voir de temps en temps, si le système est susceptible de dériver avec le temps). Tout pilote à qui on «donne la main» sur un avion qu'il pilote pour la première fois va «tester des commandes», c'est-à-dire s'écarter délibérément de la ligne de vol parfaite pour apprendre le comportement dynamique de l'appareil (inerties, délais de réactions, retours d'effort...). Un pilote qui ne referait jamais plus ce type de manoeuvre non-optimales ne pourrait pas remarquer des dérives dans le comportement de l'appareil dans des modes autres que ceux nécessaires à l'objectif fixé, ce qui s'avererait dangereux le jour où l'objectif demandé utilisera justement lesdits modes. Dans le contexte de la théorie du contrôle automatique, cela s'appelle le problème de la «persistance de l'excitation».
D'autre part, en raison des inévitables perturbations extérieures sur le système, la connaissance du système inconnu s'améliore avec le temps (par le fait que la moyenne temporelle «annule» statistiquement les bruits exogènes) l'apprentissage, optimal pour ce qui est des résultats, effectue donc la moyenne de toutes les observations passées. Avec le temps la qualité du contrôle s'améliore (le contrôle «acquiert de l'expérience»). Par contre, l'arrivée d'une dérive dans la dynamique du système inconnu sera «pondérée» plus faiblement après une longue expérience, que si elle s'était produite avec un contrôleur «jeune et inexpérimenté». Le contrôleur «optimalement expérimenté» réagira de plus en plus tardivement à une situation imprévue a mesure que son âge augmente. La conclusion est qu'il y a un compromis entre «optimalité des résultats» et «faculté de réaction», et que s'il on veut le meilleur résultat, on le paye à long terme par une sclérose du contrôle qui devient incapable de réagir au changement. La capacité de réaction à un coût, qui est une certaine «capacité d'oubli» et une «persistance des excitations du système», dont l'impact est négatif sur les performances à court terme.
[2] je n'ai pas trouvé de page sur les bases du contrôle adaptatif, et il y a peu d'ouvrages élémentaires sur le sujet. Essayer «Applications of Adaptive Control» de Narendra et Monopoli chez Academic Press (1980) comme point d'entrée
[3] classification automatique: http://www.cs.wisc.edu/~dyer/cs540/notes/learning.html
[4] mode d'emploi d'un système de neurones http://www.sander.ebi.ac.uk/whatif/chap26.html
[5] recuit simulé: http://www.ingber.com/asa89_vfsr.ps.gz
[6] filtrage particulaire http://www.lsp.ups-tlse.fr/Fp/Brouttelande/SE/Docs/florent-syst-partic.ps.gz
[7] algorithmes génétiques: http://www.emse.fr/~hannoun/home/projet.html http://klobouk.fsv.cvut.cz/~ondra/sade/sade.html

Retour à la page de Natasha sur l'apprentissage automatique