Abstract
La vision par ordinateur est un des domaines de l’intelligence artificielle qui connaît les succès les plus fulgurants. Depuis une vingtaine d’années, les machines n’ont cessé de progresser dans leur capacité à extraire des informations à partir d’images et à identifier des objets. Mais faut-il en conclure que ces machines sont littéralement des machines voyantes, ou ne s’agit-il que d’une façon imagée de décrire des capacités de détection? Le présent article se propose de fournir les bases d’une réponse raisonnée à cette question. Nous examinons successivement trois types de conditions d’attribution de la vision, et soutenons que le critère fonctionnaliste, en termes de représentations internes de stimuli visuels exploitables à diverses fins, doit être préféré aux critères behavioriste ou phénoménologique. Ce critère fonctionnaliste est ensuite appliqué à une des technologies les plus utilisées dans le domaine de la vision par ordinateur, celle des réseaux de neurones et plus particulièrement des réseaux convolutifs. Nous soutenons alors que de tels réseaux sont bien capables de voir, précisément dans la mesure où ils sont entraînés pour produire des représentations à partir de données visuelles. Ces représentations ont des traits spécifiques associés à un entraînement réussi : elles sont hiérarchiques, versatiles et robustes. De telles propriétés ont un intérêt théorique au-delà de leur domaine d’origine : nous suggérons pour finir qu’elles pourraient être utilisées pour spécifier la nature de la fonction de représentation et résoudre certains des problèmes classiques auxquels font face les théories téléosémantiques de la représentation comme celle de Dretske.