De façon simplifiée, une enchère en RTB se déroule ainsi :
- Un emplacement publicitaire est mis aux enchères par un éditeur
- Les annonceurs placent leurs enchères
- Si le prix qu’il a proposé est au-dessus du prix de réserve fixé par l’éditeur, l’annonceur ayant proposé l’enchère la plus haute gagne le droit d’afficher la bannière de son choix.
- Il paie un prix qui dépend du modèle d’enchère en place :
– Le prix proposé ou un prix de réserve fixé par l’éditeur, si le prix proposé est trop bas pour une enchère au premier prix (majoritaire aujourd’hui),
– Le second plus haut prix ou un prix de réserve fixé par l’éditeur, si le second plus haut prix est trop bas pour une enchère au second prix.
- Il observe la réaction de l’utilisateur à la bannière (un clic, un achat, ou rien de tout ça) et en tire une certaine valeur.
L’objectif, lorsque l’on se place du côté de l’annonceur, est donc d’apprendre à proposer une enchère optimale.
Le feedback lié au RTB est particulier : lorsqu’un annonceur perd une enchère, il n’apprend rien de la valeur que lui aurait rapporté l’emplacement (similairement, en cas de prix de réserve trop haut, l’éditeur n’apprend rien de la distribution des prix proposés par les annonceurs). Ainsi, une fois l’enchère finie, le joueur ne connaît pas nécessairement la récompense qui aurait été attribuée en proposant un bid différent (respectivement, un prix de réserve différent, dans le cas de l’éditeur). Ce modèle de feedback fait penser à celui des bandits manchots (voir ici pour une introduction douce), où l’on observe uniquement la récompense liée à l’action choisie.
Le modèle des bandits a donc été souvent associé au problème du choix de bid optimal.
On peut faire deux sortes d’hypothèses sur la valeur de l’emplacement et sur les bids proposés par les autres annonceurs. L’hypothèse la plus simple est que ces deux quantités sont des variables aléatoires tirées d’une même loi de façon indépendante : c’est l’hypothèse “iid” (Online learning for Repeated Auctions, Real-time bidding with side information, Efficient Algorithms for Stochastic Repeated Second-price Auctions). Elle implique en particulier que la façon de jouer de l’annonceur principal n’a aucune influence sur l’environnement. On peut aussi supposer que ces variables peuvent être arbitraires : c’est l’hypothèse adversariale (Online learning for Repeated Auctions, Learning to Bid without Knowing your Value). Cette dernière hypothèse conduit à des stratégies beaucoup plus défensives.
D’autre part, les bids concurrents peuvent être supposés observés : à chaque coup, uniquement dans certains cas, ou jamais.
Un modèle plus élaboré considère que l’annonceur dispose aussi de données de contexte (sur l’utilisateur ou l’emplacement) dont la récompense dépend de façon linéaire. (Real-time bidding with side information).