Notes:
Retour à la page de Natasha sur l'apprentissage automatique
[1]
ces dispositifs ont une connaissance
du système qu'il régulent limitée à l'historique des
manoeuvres qu'ils ont eux-mêmes effectuées. En particulier, une
bonne connaissance du système inconnu requiert une non-optimalité
du contrôle, au moins au début (voir de temps en temps, si
le système est susceptible de dériver avec le temps). Tout pilote
à qui on «donne la main» sur un avion qu'il pilote pour
la première fois va «tester des commandes», c'est-à-dire
s'écarter délibérément de la ligne de vol parfaite pour
apprendre le comportement dynamique de l'appareil (inerties, délais
de réactions, retours d'effort...). Un pilote qui ne referait jamais
plus ce type de manoeuvre non-optimales ne pourrait pas remarquer des
dérives dans le comportement de l'appareil dans des modes autres que
ceux nécessaires à l'objectif fixé, ce qui s'avererait dangereux
le jour où l'objectif demandé utilisera justement lesdits modes.
Dans le contexte de la théorie du contrôle automatique, cela
s'appelle le problème de la «persistance de l'excitation».
D'autre part, en raison des inévitables perturbations extérieures
sur le système, la connaissance du système inconnu s'améliore
avec le temps (par le fait que la moyenne temporelle «annule»
statistiquement les bruits exogènes) l'apprentissage, optimal pour ce
qui est des résultats, effectue donc la moyenne de toutes les observations
passées. Avec le temps la qualité du contrôle s'améliore
(le contrôle «acquiert de l'expérience»). Par contre,
l'arrivée d'une dérive dans la dynamique du système inconnu
sera «pondérée» plus faiblement après une longue
expérience, que si elle s'était produite avec un contrôleur
«jeune et inexpérimenté». Le contrôleur «optimalement
expérimenté» réagira de plus en plus tardivement à
une situation imprévue a mesure que son âge augmente. La conclusion
est qu'il y a un compromis entre «optimalité des résultats»
et «faculté de réaction», et que s'il on veut le meilleur
résultat, on le paye à long terme par une sclérose du contrôle
qui devient incapable de réagir au changement. La capacité de
réaction à un coût, qui est une certaine «capacité
d'oubli» et une «persistance des excitations du système»,
dont l'impact est négatif sur les performances à court terme.
[2]
je n'ai pas trouvé de page sur les bases du contrôle adaptatif,
et il y a peu d'ouvrages élémentaires sur le sujet. Essayer
«Applications of Adaptive Control» de Narendra et Monopoli chez
Academic Press (1980) comme point d'entrée
[3]
classification automatique: http://www.cs.wisc.edu/~dyer/cs540/notes/learning.html
[4]
mode d'emploi d'un système de neurones http://www.sander.ebi.ac.uk/whatif/chap26.html
[5]
recuit simulé: http://www.ingber.com/asa89_vfsr.ps.gz
[6]
filtrage particulaire http://www.lsp.ups-tlse.fr/Fp/Brouttelande/SE/Docs/florent-syst-partic.ps.gz
[7]
algorithmes génétiques: http://www.emse.fr/~hannoun/home/projet.html http://klobouk.fsv.cvut.cz/~ondra/sade/sade.html
Retour à la page de Natasha sur l'apprentissage automatique