• Benjamin Le Maitre

Pourquoi un bon backtest n'est pas nécessairement robuste ?

Mis à jour : mai 3

Nous avons rarement évoqué le trading algorithmique bien que le domaine soit passionnant. L’heure est venue d’y remédier avec un thème courant dans l’industrie : pourquoi un bon backtest n’est pas nécessairement indicatif d’une méthode solide ?


De nombreux éléments sont à incorporer de le processus de création et de validation d’un modèle. Étudions-les ci-dessous, du plus simple au plus complexe :


1° - Le plus évident à modéliser, les frais fixes. Dépendant de la classe d’actif traitée, ils peuvent se décliner en sous-segment : frais de broker, d’échange, de clearing, régulation, etc. Ils varient notamment en fonction du volume traité et de l’institution d’intermédiation.


2° - Plus subtil, le spread. Le dernier prix que vous observez sur un graphique est incomplet : il s’agit soit du niveau de la dernière transaction (last price) soit du point moyen entre le bid et l’ask (mid-price). L’écart entre le bid et l’ask est appellé le spread.


Si vous entrez sur le marché agressivement à l’aide d’ordres ATP (à tout prix), vous serez exécuté au bid ou à l’ask (selon le sens de votre entrée), à un prix alors différent de celui affiché. Le spread varie localement en fonction du marché traité, de l’heure de la journée, de la volatilité, etc. Il varie également à travers les années en fonction des contrats de market-making signés par les échanges organisant l’afflux de liquidité passive.


3° - De pair avec le spread, la liquidité est également central. Les inefficiences sont plus nombreuses dans des marchés illiquides. Cela signifie qu’elles disparaitront avec peu d’encours et que votre modèle ne pourrait pas passer à l’échelle.


4° - Le plus technique, la latence. Valable principalement pour des méthodes de haute-fréquence où une intervention rapide est primordiale pour éviter les décalages de prix ou l’arbitrage par une firme concurrente. Une phrase souvent entendue sur des desks de trading propriétaire quantitatif court-terme “L’alpha n’est pas difficile à trouver, il est difficile à exploiter.”


5° - Une notion connue dans l’univers de la Data Science et l’une des plus difficiles à maîtriser en investissement algorithmique en raison de la non-stationnarité des données : le surapprentissage. Concrètement, comment est-ce que ce problème se traduit ? Un modèle d’investissement conçu de manière à être parfaitement adapté à un type de condition de marché restreint, mais qui se généralisera mal à d’autres environnements.


Cela arrive régulièrement lorsque l’échantillon de données utilisé (la période d’apprentissage) est déraisonnablement faible ou bien qu’aucun test sur une période de robustesse (période durant laquelle un algorithme n’a pas été entrainé ou créé) n’ait été réalisé. Afin de donner un ordre de grandeur, n’attendez pas de résultats solides sur des marchés matures avec moins de quinze ans de données (y compris sur unité de temps courte).


Principe à garder en mémoire, plus un modèle contient de features (types de données) et plus la sensibilité des paramètres associés influent ses performances : plus le risque de surapprentissage est important.

Enfin, même si tous ces tests sont concluants, les marchés ne sont pas immuables : changement de structure (taille de pas de cotation, horaires d’ouvertures, changements d’opérateurs). Les inefficiences fluctuent et elles varieront aussi longtemps que les marchés seront ouverts.


Une question ? Échangez avec un gérant privé au 01 71 24 82 51 ou par e-mail via investisseurs@avantgarde-investment.com.