À propos de … données

Par Sophie Docx
From left to right: Mohamed, Davy, Nick, Thomas, Jessica

Personne n’est mieux placé pour parler de Cake que les personnes qui y travaillent. Dans cette série « À propos de… », nous interviewons des collaborateurs de Cake.

Aujourd’hui, c’est au tour de la Head of Data Science et co-fondatrice Jessica Ruelens et au Data Scientist Davy Cielen. 👇

🍰 Quel est votre rôle au sein de Cake ?

Jessica : Je suis co-fondatrice de Cake et, au début, j’ai surtout travaillé en tant que Data Scientist. Maintenant que l’équipe s’est un peu agrandie, je m’occupe davantage de l’architecture et de la stratégie. Et je fais également le lien avec d’autres départements au sein de l’entreprise, comme Devops et le côté Business.

Davy : J’ai été la deuxième personne à être recrutée au sein de l’équipe chargée des données chez Cake. Je travaille en tant que Data Scientist.

Jessica : Désormais, notre équipe Data est composée de cinq personnes. Nick est Data Engineer, Thomas est Data Analyst et Mohamed est ETL Engineer.

🔎 Quelle est la différence entre toutes ces fonctions ?

Jessica : Un Data Scientist est un spécialiste du Machine learning, il développe des modèles prédictifs ou fournit des algorithmes de clustering. 

Les Data Engineers s’assurent que toutes les données enrichies arrivent au bon endroit, au bon moment et sous la bonne forme.

 Un ETL engineer s’occupe des processus qui rassemblent les différentes sources de données dans un format utilisable par l’équipe chargée des données (les transactions, le feed-back des utilisateurs…).

Un Data Analyst crée des rapports à partir des données déjà existantes et qui ont été enrichies, et s’assure qu’elles parviennent aux différentes parties prenantes (tant les consommateurs que les partenaires commerciaux de Cake) de la meilleure manière possible.

Davy : La différence réside également dans l’orientation commerciale. Alors qu’un Data Scientist ou Analyst s’intéresse davantage à la valeur commerciale et formule une réponse aux questions commerciales en se basant sur des données, le travail d’un Data Engineer est plus technique.

Et les délais dans lesquels ils travaillent sont également différents. Un Data Analyst acquiert des connaissances sur des questions ponctuelles. Un Data Scientist construit des modèles. Un ingénieur assure des flux de données robustes, surtout lorsqu’ils doivent être utilisés en temps réel.

Jessica : La distinction entre toutes ces fonctions différentes est très importante afin de constituer une équipe qui tourne bien. Je constate que, dans la pratique, ce point n’est souvent pas suffisamment pris en compte et que les mauvais profils sont recrutés pour les mauvaises fonctions. Et c’est ainsi que les problèmes apparaissent. Le domaine des données est nouveau pour de nombreuses entreprises et on voit que des accidents se produisent parfois « en cours de route ». Vous trouverez un bon aperçu des différentes fonctions dans cet article.

🚀 Comment commence-t-on à construire à partir d’une telle feuille blanche ?

Jessica : C’est un processus itératif. Et en fait, nous ne le savons toujours pas.😂 Non, c’est une blague, évidemment. En fait, tout a commencé avec la mission de Cake qui était très claire dès le départ : améliorer le bien-être financier des consommateurs ordinaires grâce à une meilleure application bancaire.

Sur la base de cette mission, nous avons entamé des discussions avec des organismes tels que le CEBUD (Centre de conseil et de recherche budgétaires) et le CPAS. Il est vite devenu évident que la compréhension de votre comportement financier est cruciale pour votre bien-être financier. C’est ce que disent aussi tous les experts financiers : moins nous en savons sur le fonctionnement de notre argent, plus nous prenons de mauvaises décisions. Nous sommes partis de là. 

Davy : Vos transactions bancaires contiennent toutes les informations dont vous avez besoin pour avoir un bon aperçu. Mais pas de façon claire. L’enrichissement et le classement des transactions bancaires ont donc constitué la première étape. Et de toute façon, dans un tel processus, on passe en alternance par différentes étapes de réflexion plus stratégique et d’exécution et de préoccupations plus techniques.

Jessica : Le CEBUD, en tant qu’autorité académique, reste encore aujourd’hui une caisse de résonance importante pour le développement futur de l’application. En retour, nous les aidons également à vérifier certaines hypothèses.

💁 De quelle manière ces données sont-elles enrichies ?

Jessica : Nous construisons un modèle de traitement des données qui est auto-apprenant. Plus le modèle fonctionne, plus il y a d’utilisateurs, et plus il y a de données qui entrent, plus les informations qui sortent du modèle sont précises. Mais bien sûr, on ne construit pas un tel modèle en un jour. Un tel modèle passe par plusieurs étapes avant d’être terminé.

Nous appelons la première étape la phase exploratoire. Et ce n’est ni plus ni moins qu’utiliser son bon sens pour comprendre les informations qui arrivent. Et il n’y a pas de règles fixes pour cela.

Dans une deuxième phase, nous recueillerons des exemples concrets sur la base desquels nous pourrons plus tard donner au modèle des « hints » (les features) de ce à quoi il faut faire attention pour attribuer telle ou telle transaction. Par exemple, vous pouvez apprendre au modèle que les transactions effectuées un samedi soir entre 20 heures et minuit sont probablement des dépenses dans l’horeca.

Dans une troisième phase, l’histoire devient plus technique et les Data Scientists vont construire un prototype.

Dans une quatrième phase, les Data Engineers se mettent au travail pour construire un modèle qui fonctionne. C’est la véritable phase de mise en œuvre, au cours de laquelle de vraies données peuvent commencer à circuler dans le modèle.

Davy : Bien entendu, vous commencez par analyser les transactions et les informations disponibles. Pour Cake, ce sont toutes les informations qui nous parviennent grâce à la législation PSD2 via la connexion avec les banques (l’API). J’ai alors eu l’idée d’appliquer le Natural Language Processing. C’est une branche de l’intelligence artificielle qui permet aux ordinateurs d’interpréter et de comprendre le langage humain. Seulement ici, nous n’avons pas affaire au langage humain, mais à une « pile » de termes qui n’ont pas la structure d’une phrase humaine normale, donc pas de verbes, pas de majuscules, pas de signes de ponctuation. Un sérieux défi donc de faire fonctionner ce système sur des données brutes et non structurées comme celle-ci :

Étant donné que nous utilisons une méthode qui n’était pas prévue au départ, nous avons dû la « recycler ». Et cela nous a valu (et il y en a encore) quelques défis à relever :

  1. Vous n’avez pas d’exemples. En soi, c’est déjà difficile pour les grandes chaînes de magasins qui ont plusieurs points de vente, ne parlons donc pas des petits entrepreneurs qui n’ont qu’un seul point de vente.
  2. Souvent, les informations que nous recevons de la banque sont limitées en longueur, de sorte que nous devons composer avec des abréviations et des descriptions parfois cryptiques (par exemple, MRS dans la transaction ci-dessous correspond à un bureau de Bpost).
  3. La multiplicité des langues (en particulier pour la Belgique) ajoute à la complexité.
  4. Différentes orthographes pour chaque point de vente ou magasin où a eu lieu la transaction. Par exemple, une transaction « Proximus » arrive parfois sous le nom de « Proxihus ».
  5. Derrière un magasin ou un point de vente donné se trouve souvent une entité juridique ou une personne morale ayant un nom différent. Par exemple, le magasin de bonbons Zoet à Malines arrive sous le nom de Neuhaus à Londerzeel. 

Jessica : Entre-temps, nous avons déjà bien avancé pour la Flandre. Nous avons déjà analysé plus de 1,5 million de transactions, pour une valeur totale de plus de 460 millions d’euros.
Environ 45 % des transactions sur terminal sont désormais enrichies avec le bon point de vente et la bonne catégorie. Au début, nous devions adapter manuellement beaucoup de données. Désormais, beaucoup de choses ont été automatisées, mais il y aura toujours des exceptions qui devront être corrigées manuellement.

Quoi qu’il en soit, cela reste une zone de tension entre prendre des décisions et estimer le bon niveau de précision. Nous faisons continuellement des hypothèses que nous mettons en pratique et que nous ajustons ensuite en conséquence. Et cela continue d’être un processus fait de réussites et d’échecs.

🏁 Le modèle sera-t-il un jour terminé ?

Davy : Non, jamais. 😀 Non, tout change tous les jours. Chaque contexte social, culturel ou économique, ou toute modification de celui-ci ont un effet sur le modèle qui, à son tour, doit être pris en compte. Reprenons l’exemple où le modèle a appris que les transactions effectuées un samedi soir sont probablement des transactions dans l’horeca. Cette hypothèse est devenue sans valeur en période de coronavirus. Les transactions effectuées un samedi soir sont maintenant plus susceptibles d’être l’activation d’un abonnement Netflix. Nous devons alors intervenir manuellement et apprendre de nouveaux réflexes au modèle. 

Jessica : Quand nous nous lancerons dans d’autres pays, nous devrons à nouveau apprendre de nouvelles choses au modèle. D’une part, parce que les informations qui arrivent via la banque sont structurées différemment, mais aussi parce qu’elles sont dans une langue différente ou même, dans certains cas, dans une écriture différente.

Davy : Nous avons bien avancé pour la Wallonie aussi. Les informations arrivent effectivement dans une autre langue, mais les banques sont les mêmes, la façon dont les informations sont présentées est la même et les grandes chaînes de magasins sont également les mêmes. Dans l’intervalle, nous avons également commencé les premiers tests avec les banques néerlandaises, et nous allons donc à nouveau devoir trouver de nouvelles règles.

Pour la Belgique, nous pouvons par exemple déduire du montant mensuel des allocations familiales le nombre d’enfants d’une personne. Si ce système fonctionne différemment aux Pays-Bas, nous devrons imaginer des règles différentes.

Jessica : Le but ultime et la compréhension de la finance sont universels. Les règles de ce qui constitue une vie financière saine sont également universelles. Seule la façon dont nous devons construire les connaissances pour chaque marché est différente.

Avec le temps, nous devrons également tenir compte de l’évolution des besoins dans la composition de l’équipe. Même si nous avons déjà aujourd’hui une équipe assez diversifiée, dont les membres ont des parcours variés et travaillant dans différents pays.

📝 Qu’en est-il du feed-back des utilisateurs ?

Jessica : Le feed-back des utilisateurs est très important pour nous donner de bons conseils pour le modèle ou le mettre sur la bonne voie. Et le feed-back des utilisateurs individuels est utilisé pour améliorer le modèle pour tous les utilisateurs. Le fait de donner un feed-back dans l’application améliore donc l’application pour tout le monde.

Cette semaine, une nouvelle fonctionnalité sera ajoutée à l’application. En tant qu’utilisateur, vous pourrez donner votre avis, et celui-ci sera affiché en temps réel dans votre application. Dès que le modèle recevra le même feed-back de la part de plusieurs utilisateurs, il sera appliqué à tous.

Davy : Cette nouvelle possibilité de feed-back constituera un grand pas en avant dans l’enrichissement des transactions. Nous commençons par un feed-back sur le lieu, mais celui-ci sera élargi dans les semaines à venir.

🔐 How Comment garantissez-vous la sécurité des données ?

Jessica : Étant donné que nous travaillons avec des données de transaction bancaire, la confidentialité et la sécurité sont toujours notre priorité. Pour commencer, toutes les données de transaction sont complètement dépouillées de toute information d’identification dès qu’elles arrivent. Cela signifie que toutes les informations qui peuvent relier les données de transaction à une personne en particulier sont supprimées et stockées dans une base de données distincte. Cliquez ici pour lire comment cela fonctionne exactement. 

Davy : En outre, seul un nombre limité de personnes ont accès à toutes les informations et uniquement lorsque c’est strictement nécessaire. Les Data Scientists, par exemple, ont accès aux données brutes (c’est-à-dire les transactions dépouillées des données d’identité). Les Data Engineers n’ont pas accès aux données parce que ce n’est pas nécessaire. Ils construisent le modèle avec des données de test, des spécimens (dans le jargon informatique, on appelle cela l’environnement QA). Le Data Analyst n’a accès qu’aux données enrichies, mais jamais aux données brutes.

🥳 Quel est votre but ultime ? Quand serez-vous satisfaits ?

Davy : Un enrichissement de 80 % serait fantastique. Les derniers 20 % sont très difficiles à obtenir, car il y a une grande quantité de transactions dites uniques. Les transactions qui n’ont lieu qu’une seule fois chez un ou seulement quelques utilisateurs resteront toujours des cas difficiles.

Jessica : Si nous constatons un effet dans le comportement des gens avant et après l’installation de l’application, je serai satisfaite. Nous saurons alors que nous avons vraiment un impact sur le bien-être financier et que nous sommes en train de réaliser notre mission. Je suis convaincue que, même si l’application est encore loin de montrer tout son potentiel, nous faisons déjà cela en fournissant des informations. Nous pouvons déjà le constater aux réactions des utilisateurs qui nous parviennent. Même chez Cake, nous avons des collègues qui ont changé leur comportement d’achat après avoir été confrontés à leur graphique Zalando. Je ne citerai pas de noms. 💪 

Davy : Quoi qu’il en soit, plus nous aurons d’utilisateurs, plus nous analyserons de transactions, et plus les informations que nous générerons seront exactes. C’est le cœur de l’écosystème de Cake.

Prêt à télécharger l’application Cake ?

Il est disponible pour Google Play et sur l’App Store.