Transcription
Transcription : Semaine de démos d'outils de données de l'EFPC : Des données brutes aux données fines - organiser les données dans un but précis
[Le logo blanc animé de l'École de la fonction publique du Canada se dessine sur un fond violet. Une page apparaît, puis elle se transforme en livre ouvert. Une feuille d'érable apparaît au milieu du livre, qui ressemble aussi à un drapeau en dessous duquel se trouvent des lignes courbes. Le texte suivant s'affiche à côté du logo : Webcast | Webdiffusion.]
[Il s'efface et est remplacé par deux écrans titres côte à côte en anglais et en français. En haut se trouvent trois feuilles d'érable vertes, chacune faite de textures différentes. Le texte suivant apparaît à l'écran :
Semaine de démos d'outils de données de l'EFPC
Des données brutes aux données fines — organiser les données dans un but précis
Communauté des données du GC
[Il s'efface, remplacé par un appel vidéo sur Zoom. La fenêtre vidéo est occupée par un homme avec des lunettes, portant une chemise bleue boutonnée. Il est assis devant un arrière-plan violet de Zoom qui affiche le logo de l'EFPC, le logo du gouvernement du Canada et le titre « Semaine de démos d'outils de données de l'EFPC » en anglais et en français.]
Neil Bouwer: Bonjour. Je m'appelle Neil Bouwer. Je suis de l'École de la fonction publique du Canada, et je suis très heureux de vous accueillir ici lors de cet événement virtuel. Aujourd'hui, nous vous présentons l'une de nos séries Semaine de démos d'outils de données. Tout au long de la semaine, nous vous avons démontré, en collaboration avec des partenaires au sein et à l'extérieur du gouvernement, de nouvelles approches en matière d'analytique des données et d'intelligence artificielle. Aujourd'hui, nous avons le plaisir de vous faire une démonstration et une présentation d'outils de données très intéressantes. J'aimerais commencer par mentionner deux trois choses. Tout d'abord, je me trouve dans la région de la capitale nationale et donc sur le territoire traditionnel du peuple Anishinaabe. C'est à mon avis un moment tout indiqué pour réfléchir à ce que cela signifie que de me trouver sur le territoire traditionnel non cédé de la Nation algonquine anishinaabe. Je vous invite tous à prendre un moment pour réfléchir, où que vous soyez, au territoire traditionnel sur lequel vous pourriez vous trouver. Je tiens également à mentionner que nous avons aujourd'hui un interprète en simultanée. Cet événement virtuel se déroulera principalement en anglais, mais avec interprétation simultanée en français, donc n'hésitez pas à vous en prévaloir. Vous pouvez bénéficier de l'interprétation simultanée en cliquant sur le lien qui vous a été fourni lors de votre inscription initiale à cet événement. N'hésitez donc pas à vous prévaloir du service d'interprétation simultanée qui vous est offert. Nous avons le plaisir d'accueillir deux grands conférenciers aujourd'hui. Nous aurons l'occasion de les entendre tous les deux. Nous aurons également l'occasion de répondre à vos questions et d'obtenir des réponses de votre part. La plateforme comporte une fonction « lever la main » pour poser vos questions. N'hésitez pas à vous en servir. Nos invités sont là pour répondre à vos questions. Permettez-moi de vous les présenter très brièvement.
[Deux personnes se joignent à l'appel. En haut à droite, Vik Pant, un homme dans un costume bleu impeccable, est assis devant un fond blanc. Sur le panneau du bas, Bryan Smith, un homme blond, est assis dans le sous-sol d'une maison.]
Neil Bouwer: Voici tout d'abord notre très cher Vik Pant, directeur scientifique de Ressources naturelles Canada. Dans l'exercice de ses fonctions, il a introduit des niveaux d'analyse de données et d'intelligence artificielle avancés au sein du ministère à vocation scientifique dans le cadre de ses travaux au sein de la communauté. Nous sommes ravis d'accueillir Vik parmi nous aujourd'hui. Vik sera suivi de Bryan Smith, cofondateur et PDG de ThinkData, une société torontoise qui exploite des données et analyses de données afin de cerner les renseignements pouvant intéresser le gouvernement ainsi que d'autres ministères, qui rassemble ces données et qui contribue à procurer de la valeur ajoutée à divers utilisateurs dans l'intérêt du public, y compris des ministères. Bryan nous expliquera ce que tout cela signifie et l'approche adoptée en matière de données, mais il nous en fera également la démonstration. Nous allons voir comment tout cela fonctionne dans la pratique. Nous sommes très heureux de vous avoir tous les deux ici parmi nous aujourd'hui. Merci d'être des nôtres. Commençons par Vik. Si vous pouviez simplement commencer par quelques remarques sur les données dans le contexte qui est le vôtre. Je vous cède la parole.
Vik Pant: Oui, bien sûr. Merci infiniment. J'aimerais d'abord remercier M. Taki Sarantakis, président de l'École de la fonction publique du Canada ainsi que toute l'équipe qui s'est chargée d'organiser cet événement virtuel remarquable et de nous réunir dans un esprit d'apprentissage coopératif et de partage de connaissances. Je suis également ravi d'être ici pour m'entretenir avec Bryan, un collègue de l'industrie. Je me réjouis à l'avance d'assister à une démonstration en direct. C'est toujours le point saillant de toute présentation de ce genre.
[Le panneau de Vik remplit l'écran. Une boîte de texte violette dans le coin inférieur gauche l'identifie : Vik Pant, Ressources naturelles Canada.]
Vik Pant: Neil, je tiens tout particulièrement à vous remercier. J'ai eu le privilège de vous connaître depuis mon arrivée à Ottawa il y a quelques années, et nous avons eu des conversations brillantes et des discussions éclairantes sur le rôle des données, le rôle du numérique et concernant l'amplification et l'augmentation réelle de l'impact et des contributions que peuvent avoir ces derniers dans la sphère gouvernementale et dans la fonction publique. Neil, comme le disent si bien nos amis neuroscientifiques, lorsque je m'associe avec vous, un apprentissage intensif s'opère, des neurones se connectent entre eux, se mettent en branle simultanément. Notre chimie et notre énergie ne cessent de me fasciner. Merci de m'accueillir ici aujourd'hui Neil. Le thème « Des données brutes aux données fines » revêt pour nous une grande importance à Ressources naturelles Canada. Nous le vivons de première main. J'aime beaucoup le titre en tant que tel. Je le trouve très approprié. On dit toujours, au sein de l'Accélérateur numérique de Ressources naturelles Canada, dont je parlerai dans une minute, que les modèles vivent en aval des données. Lorsque nos données sont de piètre qualité, nos systèmes d'IA sont peu performants et, au sein de l'Accélérateur numérique de Ressources naturelles Canada, nous avons des équipes dont les travaux portent précisément sur ce genre de problématique entourant l'ingénierie des données et qui veillent à ce que toutes les tâches en amont soient correctement effectuées afin que l'exploration des données en aval et toute la modélisation puissent réellement être de très haute qualité et à haut rendement. Au sein de notre ministère, nous nous focalisons sur les forêts, l'énergie et les mines. Notre ministère a une vocation hautement scientifique. Nous voulons que nos scientifiques et nos responsables stratégiques puissent réellement tirer parti de toutes ces nouvelles technologies impressionnantes, de toutes ces percées innovatrices qui se produisent autour de nous et qui sont commentées dans la presse populaire et dans les médias grand public, afin de maximiser à la fois le rendement et l'utilité des différents ensembles de données dont nous disposons. Maintenant, au sein de l'accélérateur, nous avons des scientifiques de données. Ces derniers, en collaboration avec des scientifiques du domaine et nos responsables stratégiques, travaillent à l'application créative de technologies innovantes pour promouvoir et améliorer l'intégration des politiques scientifiques. En d'autres mots, nous élaborons des solutions numériques axées sur les données qui contribuent à nous faire progresser et à accélérer l'accomplissement de la mission, du mandat, ainsi que l'établissement des priorités et des plans de notre ministère. Ce travail, qui consiste à passer de données brutes à des données fines, nous l'effectuons quotidiennement, et j'aimerais rapidement vous faire part, dans le cadre de ces remarques préliminaires, de quelques enseignements que nous avons tirés en cours de route et, en fait, en partenariat avec de nombreux ministères fédéraux. Nous avons tous collectivement appris certaines choses dont j'aimerais vous faire part dans ces remarques préliminaires. Je crois que ce qui nous vient d'abord à l'esprit lorsqu'il est question de passer de données brutes à des données fines, ce sont certaines tâches de type technique que nous associons généralement à la gestion de données transactionnelles ou de données base — des tâches ayant trait à la distillation, à la synchronisation, à la normalisation, à la systématisation de nos ensembles de données, au fait de se doter d'un catalogue et de s'assurer que les données sont complètes, uniformes, cohérentes et compatibles. Ce sont des tâches que nous accomplissions en fait à l'aide de nos progiciels normalisés et avant que des outils comme ceux que Bryan va vous présenter ne soient disponibles, nous devions vraiment retrousser nos manches et nous appuyer sur les bibliothèques R et les modules python, ce que nous faisons toujours dans une certaine mesure, mais nous sommes très heureux de savoir qu'il existe des solutions, comme ThinkData, nous permettant de prendre rapidement certaines de ces tâches répétitives, de ces activités répétitives associées à la gestion de données et de transformer nos ensembles de données de leur état brut à un état raffiné, de leur état initial à un état consommable par les machines, dans le but ultime de pouvoir réellement en tirer de la valeur en aval. En parlant de valeur, cela nous amène au deuxième aspect, si j'ose dire, le plus important du passage de données brutes à des données fines, qui consiste essentiellement à se focaliser sur les propositions de valeur, les propositions d'avantages inhérents propres à un ensemble de données et à vraiment comprendre les choses, mais aussi leurs conséquences. C'est bien beau de dire qu'on passe de données brutes à des données fines, mais il s'agit d'un exercice qui ne va pas sans entraîner des coûts. Ça exige du temps et de la main-d'œuvre. Ça entraîne des coûts de renonciation. Il y a des coûts financiers réels associés au fait de disposer de logiciels et de prendre le temps d'en manipuler les données pour, si vous voulez, leur donner un « massage » afin qu'elles soient prêtes à être traitées. Le dilemme qui se pose alors est le suivant : on veut s'assurer de ne pas le faire parce que tout le monde le fait ou parce que nous avons lu quelque part que, pour une raison plutôt abstraite, passer de données brutes à des données fines est la bonne chose à faire, mais nous voulons vraiment lier tout ensemble de données, indépendamment de sa position dans ce continuum de qualité, aux choses qu'il permet de faire, parce que les choses qu'il permet de faire peuvent certainement dépendre à un degré ou à un autre de la qualité des données qui y entrent. Par exemple, lorsque vous « entraînez » un modèle d'apprentissage automatique ou un agent d'apprentissage par renforcement ou quelque chose du genre. Laissez-moi vous expliquer ça plus en détail, parce que dans le cadre de ma collaboration avec de nombreux ministères fédéraux et de nombreuses organisations du secteur privé, je pense que tout le monde a saisi la première partie de ce dont j'ai parlé, à savoir que si vous avez des données brutes et qu'elles sont corrompues ou incompatibles ou incohérentes ou qu'elles n'ont pas les propriétés statistiques se prêtant à la datalogie, vous allez alors bien sûr devoir les amener à un état où vous pouvez le faire, mais je pense que pour de nombreuses organisations, c'est là que s'arrête en quelque sorte cette réflexion sur le passage de données brutes à des données fines, Neil et Bryan. Ce que j'aimerais poser comme postulat, c'est qu'il s'agit certainement d'une condition nécessaire, mais que tel que je l'ai présenté, ce n'est pas une condition suffisante en soi. Nous arrivons maintenant à la deuxième portion du gâteau, qui est le passage conceptuel de la donnée brute à la donnée fine. Pour ce faire, nous recourons à des techniques de modélisation conceptuelle, à la différence des techniques d'apprentissage automatique, d'apprentissage par renforcement ou d'apprentissage profond, qui permettent de construire des modèles compréhensibles par l'homme. Des travaux révolutionnaires sont en cours à l'université de Toronto. Nous avons établi des partenariats avec des chercheurs de l'université de Toronto. Nous avons également établi des partenariats avec d'autres ministères, dont Agriculture Canada, car de nombreux ministères ont des besoins du même type que ceux de RNCan. Ce que nous faisons, c'est que nous examinons un ensemble de données et, comme je vais l'expliquer, nous pouvons procéder de bas en haut ou de haut en bas. Nous construisons cet échafaudage interprétatif. Nous commençons par un ensemble de données au niveau le plus bas. La question que l'on peut ensuite se poser est : « Bon, à quel cas d'utilisation cet ensemble de données correspond-il? Lorsqu'on a de la difficulté à faire correspondre un ensemble de données à un cas d'utilisation donné, il s'agit probablement d'abord de déterminer si on doit dépenser des ressources pour les faire passer de l'état brut à l'état raffiné au sens technique du terme. Je dirais qu'il y a un autre élément à considérer dans tout ça, soit le fait qu'on puisse disposer d'un ensemble de données acquis ou obtenu il y a quelques années pour une initiative de très haute priorité, mais que depuis, la priorité de cette initiative est allée en diminuant ou peut-être que ce projet est terminé. Pourtant, il est encore possible d'utiliser cet ensemble de données en le couplant à d'autres ensembles de données correspondant actuellement à une autre initiative de très haute priorité. En combinant ces deux ensembles de données au lieu de passer d'un plus un à deux on peut passer d'un plus un à 11. C'est là tout l'avantage de ce qui peut être fait avec des données. Comme je l'ai déjà mentionné en d'autres occasions, les données ont pour formidable propriété d'être idiosyncrasiques quant à leur complémentarité. Lorsqu'on dispose de deux ensembles de données différents et qu'on les met ensemble, certaines compatibilités latentes ou, si vous voulez, certaines synergies latentes émergent et rehaussent l'utilité globale de nos deux ensembles de données multiples fusionnés, de sorte que la qualité globale de l'application pour laquelle vous utilisez ces ensembles de données augmente considérablement. Dans mon équipe, une des façons ascendantes dont nous procédons est d'étudier n'importe quel ensemble de données et de commencer à déterminer à quels programmes ou priorités, à quelle mission ou à quel mandat de notre ministère faire correspondre cet ensemble de données en question. Comme je l'ai déjà mentionné, la gestion des données, et plus particulièrement l'enrichissement des données ainsi que la transformation, de données brutes à des données fines, ne va pas sans entraîner des coûts. Ce n'est pas une activité sans coûts. Cette traçabilité est nécessaire. C'est une logique à laquelle on ne peut se soustraire, d'autant plus que nos directeurs financiers au ministère posent davantage de questions sur la possibilité d'investir dans les données et les solutions numériques. On doit donc être en mesure de justifier la priorité qu'on accorde à un ensemble de données plutôt qu'à un autre. Procéder selon une approche ascendante du bas vers le haut est une des options qui s'offrent à nous. Mais on ne procède évidemment pas à partir d'un ensemble de données à un niveau jusqu'à un niveau supérieur où on se dit : « Hé, ça va nous aider à élaborer de meilleurs modèles climatiques ». Comme vous pouvez l'imaginer, cela mènera à de nombreux ensembles d'objectifs et de sous-objectifs intermédiaires ainsi qu'à d'autres types d'entités conceptuelles au fur et à mesure du processus de mise en correspondance, mais c'est un processus indispensable à une mise en correspondance stratégique de l'ensemble de données depuis la base jusqu'à l'objectif ultime de l'entreprise, et ce, d'une façon systématique et structurée se prêtant ensuite à l'analyse, à la documentation et à la communication et pouvant réellement être intégrée au cadre de gouvernance auquel tous les actifs et toutes les ressources de l'entreprise doivent être intégrés. On peut également effectuer ce processus de manière descendante du haut vers le bas. On peut commencer par la mission et le mandat de notre ministère. On y promeut la carboneutralité. L'atténuation, l'adaptation et la remédiation au changement climatique. On y parle de puits de carbone. On y parle de réduction des gaz à effet de serre. Tout cela pourrait constituer un objectif stratégique de haut niveau. Il s'agit en fait de la mission, du mandat, du plan et des priorités de notre ministère. On entame ensuite un processus itératif et incrémentiel de raffinement et de décomposition de cet objectif de haut niveau en éléments de plus en plus inférieurs selon une hiérarchie conceptuelle, jusqu'à ce qu'on arrive à un point où on se dit : « O.K., pour répondre à ce type de question provenant de ce type de modèle d'apprentissage automatique, c'est ce type d'ensemble de données qu'il nous faut ». En partant d'un répertoire ou d'un inventaire d'ensembles de données connus et en procédant du bas vers le haut à partir de la mission et des priorités d'une organisation, on peut élaborer une carte ou un graphique conceptuel fort intéressant, si vous voulez, de tous les actifs de données de notre entreprise mis en correspondance avec les buts et d'objectifs des différents paliers de notre entreprise, à l'aide d'indicateurs de rendement clés, de facteurs de réussite et de mesures essentielles, jusqu'aux impératifs stratégiques aux plus hauts niveaux de notre ministère. Ce qu'il y a de très intéressant dans tout ça, c'est que, sur le plan conceptuel, des cadres d'application de ce genre sont maintenant élaborés. Neil, vous avez parlé du pouvoir des partenariats. Nous avons toujours parlé de l'importance des alliances. C'est pourquoi je suis très heureux que ThinkData participe également à cette réunion. Comme je l'ai mentionné précédemment, bien qu'il n'y ait aucun mal à recourir à des solutions comme ThinkData qui nous aident à outrepasser certaines tâches techniques que nous aurions à accomplir en écrivant du code en Python ou en R, nous arrivons maintenant au même résultat avec ces cadres de modélisation conceptuelle. Comme je l'ai mentionné, notre ministère travaille en étroite collaboration avec des chercheurs de l'Université de Toronto pour adapter le cadre qu'ils ont élaboré, ou qui est sûrement encore en cours d'élaboration, au contexte du secteur public, ainsi qu'à nos exigences et à nos situations particulières. Ce qu'on constate collectivement, c'est que Neil, vous avez la composante technique et Bryan, vous avez la composante stratégique organisationnelle qui nous donne vraiment une feuille de route, ou si vous voulez, un plan beaucoup plus global et beaucoup plus complet pour passer de données brutes à des données fines. Je sais que Bryan nous réserve une démo incroyable. Je devrais sans doute m'arrêter ici, mettre fin aux remarques que j'avais préparées et vous céder la parole, Neil, et ensuite à Bryan. Je serai ensuite heureux de prendre part à la discussion. Ravi de vous voir comme toujours, Neil. Merci de m'avoir invité.
[Les panneaux de Neil et de Bryan s'ajoutent au cadre, le panneau de Neil se trouvant en bas et celui de Bryan figurant en haut à gauche.]
Neil Bouwer: Super. Merci Vik. Merci pour ces remarques. J'aime bien votre description des deux méthodes, ascendante ou descendante, parce que je pense que pour certains fonctionnaires que nous sommes, cela semble parfois vraiment procéder du haut vers le bas, en ce sens qu'on a un objectif stratégique et qu'on a peut-être besoin d'un tableau de bord ou de rendre compte des progrès concernant certains renseignements. Cela procède naturellement du haut vers le bas. Mais d'autres fois, lorsqu'on gère un programme ou un service et que l'on comprend les données qu'on collecte ou les ensembles de données dont on dispose, alors cette idée de développer des cas d'utilisation ou en d'autres termes, de déterminer à quels autres types de questions on souhaite obtenir des réponses, qui posera ces questions et comment elles doivent être comprises — est une façon vraiment pratique d'aborder les données parce que cela peut être compliqué, mais en fait, tel que vous le décrivez, il s'agit d'un processus assez naturel. Je vous en remercie. Nous y reviendrons sûrement lors de la période de questions. La parole est à vous Bryan.
Bryan Smith: Super. Merci à tous. Vik, merci pour ça. C'est vraiment impressionnant de vous entendre parler de tout l'excellent travail que vous accomplissez et je vais faire de mon mieux pour ajuster le contenu de cette démo et de cette présentation au travail que vous effectuez actuellement. J'ai fait quelques petits changements pour essayer d'harmoniser certaines choses. Avec un peu de chance, on pourra lier les deux discussions. Je pense que pour le public, il y aura beaucoup de recoupements entre ce que Vik et moi disons, parce ses propos sont si justes et complets, ce qui est formidable. Je vais certainement faire une démo.
[Le panneau de Bryan remplit l'écran. Une boîte de texte violette dans le coin inférieur gauche l'identifie : Bryan Smith, ThinkData.]
Bryan Smith: J'aimerais par contre commencer par un petit diaporama en guise de préambule. Je vais vous présenter deux cas d'utilisation. Le premier est un cas d'utilisation type du secteur privé et le second est un cas d'utilisation du gouvernement du Canada que nous avons réalisé avec le Conseil du Trésor. Je passerai ensuite à la démo elle-même et en expliquerai le fonctionnement. Donnez-moi une seconde, je vais partager mon écran.
[Bryan clique, et le navigateur de son ordinateur remplit la majorité de l'écran. Le panneau vidéo de Bryan, réduit à une petite taille, figure sur le côté droit de l'écran. Il commence une présentation. Le logo « ThinkData Works » est affiché dans le coin supérieur gauche de la diapositive. Une ligne sépare le texte d'une forme de goutte, qui contient les signes plus et égal. La diapositive affiche un titre, inscrit en caractères gras : « Des données brutes aux données fines : organiser les données dans un but précis. »
Une nouvelle diapositive la remplace. Le titre est « Notre vision ». En dessous, il est écrit « Notre mission : permettre à toute organisation de découvrir, de gérer et d'enrichir les données qui alimentent l'analyse et la compréhension ». À côté se trouvent trois icônes intitulées « Découvrir », « Gérer » et « Enrichir ».
Une frise chronologique en bas de l'écran fournit des précisions :
« 2014 — Vision : Indexer le monde des données ouvertes afin de créer de la valeur pour les entreprises
2016 — Réalité : Besoin d'un logiciel de catalogage pour gérer plus de 250 000 ensembles de données ouvertes
2018 — Évoluer : Des fournisseurs de données à la plateforme de données
2021 — Raffiner : Permettre l'analyse et l'enrichissement des données au moyen d'un catalogue de données »]
Bryan Smith: Voilà. Avant de passer à la démonstration, je vais vous donner un aperçu de ce qui se fait chez ThinkData Works. Nous avons une vision très claire de l'aide que nous tentons d'apporter aux organisations, soit de permettre à chacune d'elles de découvrir, de gérer et d'enrichir les actifs de données qui alimenteront leurs activités et leur fourniront des orientations. Cette problématique se décompose en trois grands principes. Premièrement, les gens doivent découvrir des données. Deuxièmement, on doit les gérer convenablement. Troisièmement, on doit les enrichir ou commencer à les monétiser, que ce soit en interne ou en externe au sein de notre organisation. Nous avons fondé l'entreprise en 2014, dans la foulée du lancement du mouvement pour l'ouverture des données à l'échelle mondiale. Nous avons constaté que les gouvernements commençaient à publier des données un peu partout, ce qui était remarquable, mais que cela entraînait également un gros problème de données, à savoir qu'il n'existait pas de méthode uniformisée pour y accéder. La première chose que nous avons faite a été d'indexer le monde des données publiques. Nous avons fini par rassembler environ 250 000 ensembles de données ouvertes provenant du monde entier. Nous avons ensuite commencé à faire évoluer cette approche, en passant d'un objectif strictement axé sur les données ouvertes à l'indexation du plus grand nombre possible de données publiques et à la création d'un outil permettant au flux de ces données de provenir de l'endroit où elles étaient stockées, quel qu'il soit, de recueillir toutes les méta-informations, toutes les informations de base, toutes les licences, et de les transmettre aux équipes de datalogie afin qu'elles puissent très facilement en prendre connaissance et passer le cap de la découverte aussi rapidement que possible pour pouvoir se concentrer sur la génération de connaissances qui, pour nous, sont ce qu'il y a de plus précieux. Nous avons conçu de nombreux outils pour y parvenir. L'une des étapes de l'évolution de cet ensemble d'outils a également consisté à déterminer comment gérer correctement ces données et comment les mettre le plus rapidement possible entre les mains de scientifiques des données afin qu'ils puissent commencer à les monétiser quoique l'utilisateur final entende par ce terme. Voilà qui, en fin de compte, résume notre vision.
[La diapositive change. La prochaine diapositive est intitulée « Programme ». Elle présente les points suivants :
- L'économie des données
- Les problèmes auxquels les équipes de données sont confrontées
- Organiser les données dans un but précis
- Étude de cas Geotab
- Étude de cas SCT
- Regrouper les données dans un centre de données
- Démo »]
Bryan Smith: Je crois que je vais commencer par une révision de ce que nous observons au sein de l'économie des données. Je me concentrerai surtout sur les problèmes auxquels sont confrontées les équipes et sur ce qui occupe principalement les scientifiques des données, car c'est à mon avis le cœur du problème dont nous pouvons discuter aujourd'hui. Je vais vous présenter ces deux exemples, et ensuite on se concentrera sur la démo.
[La diapositive change. La prochaine est intitulée « Le monde des données évolue ». La diapositive présente trois segments de texte sous-titrés :
« 5,3 X — Les volumes de données explosent. L'IDC prévoit que la datasphère passera de 33 Zo à 175 Zo d'ici 2025.
40 % – La protection des renseignements personnels devient une loi. Les amendes imposées par le RGPD atteindront 330 M$ en 2020. La CCPA et la Loi sur la protection des renseignements personnels du Canada feront accroître l'impact sur les entreprises.
5,8 billions de dollars — L'IA stimule la demande de données. McKinsey prévoit que l'IA générera jusqu'à 5,8 billions de dollars de revenus annuels dans le monde. »]
Bryan Smith: Trois statistiques de haut niveau pour donner le ton. D'année en année, on assiste à une augmentation vertigineuse des volumes de données. D'où l'obstacle majeur que constitue la découverte de données, auquel les entreprises sont confrontées. La deuxième grande tendance que nous observons est que la protection des renseignements personnels a force de loi. Comme nous le savons tous, avec le RGPD et la Loi sur la protection des renseignements personnels que le Canada a déposés à la Chambre des communes, la gouvernance revêt une très grande importance. Non seulement devons-nous découvrir des données, mais nous devons aussi les gérer correctement et nous assurer de respecter les règlements. Nous devons essentiellement introduire un modèle en vertu duquel la gouvernance favoriserait l'utilisation de données au lieu de la compromettre. Je crois que tous nos efforts tendent vers une gouvernance adéquate des données : comment instaurer un modèle de gouvernance des données permettant à une organisation de partager autant de données que possible, de façon aussi sécuritaire que possible, et d'avoir l'assurance de pouvoir partager ces données de cette façon, plutôt que par des moyens traditionnels consistant à se les envoyer par courriel, à les télécharger ou à les stocker sur des clés USB, une pratique que cette législation tente d'éliminer. Et enfin, pourquoi les volumes de données explosent-ils et pourquoi les entreprises doivent-elles se focaliser sur la gouvernance des données? Cela revient en fin de compte à dire que l'IA stimule la demande en matière de données. Nous assistons à des investissements massifs dans l'analyse moderne des données et dans les données de formation nécessaires à l'IA et à l'apprentissage automatique et qui sont à l'origine d'un grand nombre de programmes de haut niveau dans de nombreuses entreprises Fortune 500 ou Fortune 1000. Ce sont des domaines dans lesquels nous investissons énormément. Pour parvenir à un niveau tel qu'on entraîne des modèles et qu'on exécute des fonctions dans un environnement machine — Vik en a parlé très clairement — il faut s'assurer des actifs de données impartiales sous-jacents et il vous faut autant de données que possible pour alimenter ces modèles et les entraîner. C'est ce qui est à l'origine de cet important volume de données et c'est ce qui alimentera ce grand mouvement et ce grand changement dans la façon dont les entreprises envisagent l'avenir de leurs infrastructures technologiques.
[La diapositive change. La nouvelle diapositive est divisée en deux moitiés, une moitié bleue et une moitié blanche. Elle est traversée par deux sections d'une citation, séparées par une ellipse. « D'ici 2022, il y aura une demande encore plus grande de bonnes données de la part des grandes organisations... mais moins de 5 % des entreprises savent comment combler ce manque avec des données fiables par elles-mêmes. »]
Bryan Smith: Une fois ce décor planté, on assiste à une demande massive de données de qualité au sein des grandes entreprises. Le problème auquel nous sommes confrontés est le fait que peu d'entreprises savent réellement comment s'approvisionner en données fiables. La vraie question qui se pose est la suivante : Si les organisations, les gouvernements et le domaine public indexent plus de données que jamais auparavant, et ce à un rythme de 5X année après année, pourquoi les entreprises n'en tirent pas parti? Pourquoi y a-t-il un goulot d'étranglement entre l'offre et l'utilisation?
[La diapositive change. La nouvelle diapositive est intitulée « Les données disponibles ne sont pas des données accessibles ». Trois sous-titres sont inscrits dans des flèches pointant vers la droite. Sous chaque sous-titre se trouve un texte. Ils indiquent :
Les données sont difficiles à trouver — La perte de temps coûte des millions — « Un scientifique des données passe 8 % de son temps à trouver et à préparer des données. Les bonnes données sont rares, et les données prêtes à être utilisées pour un projet relèvent de la fiction.
Les données sont difficiles à utiliser — Pas de normes communes — Même lorsque les équipes trouvent les données dont elles ont besoin, elles sont rarement prêtes à être utilisées — les données doivent être transformées et enrichies.
Les données sont difficiles à vendre — S'adapter au marché – Comment mettre vos données sur le marché en toute sécurité? Comment obtenir une visibilité et une facilité de recherche? Quelle est la méthode de livraison? »]
Bryan Smith: Cela est en fait dû à des facteurs auxquels les scientifiques et les équipes chargées des données sont confrontés dans toute entreprise, qu'il s'agisse d'un gouvernement travaillant avec ses propres données provenant de différents ministères ou d'une entreprise comme une banque examinant les données du domaine public et essayant d'en intégrer des éléments pour aider à prendre des décisions sur les modèles qu'ils exécutent. Ça se résume en fait à trois facteurs : Premièrement, les données sont difficiles à trouver. Même au sein du gouvernement, je dirais que ce n'est pas tout le monde qui sait à qui appartient tel ou tel actif de données. Si on étend cela à l'univers entier des données, personne ne possède l'expertise nécessaire pour savoir qui possède quoi et ce qui est publié dans le domaine public. La découverte de données constitue un énorme obstacle qui doit être éliminé simplement pour que les gens sachent où trouver les données et puissent en tirer parti de manière très efficace. Le deuxième obstacle auquel nous sommes confrontés est le fait que même lorsqu'on trouve effectivement des données, il s'avère que ce sont des données difficiles à utiliser. Il n'y a pas de normes communes régissant les données. On doit consacrer beaucoup de temps, ou plutôt les scientifiques des données doivent consacrer beaucoup de temps à rassembler des données, à établir des normes pour des données réellement similaires ou apparentées, mais une grande partie de l'effort déployé en amont pour se préparer à l'utilisation des actifs de données se résume en fait à les mettre dans un format commun afin qu'on puisse les exécuter en fonction du modèle standard que nous élaborons ou d'un produit que nous avons lancé. Et enfin, pour ce qui est de l'offre, il est en fait assez difficile de commercialiser des données, et ce pour plusieurs raisons. La première étant qu'on peut les mettre dans un portail de données ouvertes. Le gouvernement a, si je ne m'abuse, passé les cinq dernières années à réfléchir aux raisons pour lesquelles une telle commercialisation est profitable et à ce qui la rend profitable. Pour les entreprises privées, cette mesure n'est pas aussi définie que dans le domaine public, de sorte que les données ont encore un prix non divulgué qu'on essaie de comprendre. Même lorsque des données sont commercialisées, de nombreuses questions se posent quant à la quantité de données à introduire, à leur niveau de détail, et à la façon de s'assurer de ne pas être en faute du point de vue de la sécurité ou de la réglementation — voilà autant de questions sans réponse qui entravent la commercialisation de données véritablement utiles. Chez ThinkData Works, nos travaux couvrent tout ce spectre et nous nous employons à aider les entreprises, de la recherche à l'utilisation et, finalement, à monétisation — c'est le mot que nous employons pour rassembler toutes ces données.
La diapositive change. La nouvelle diapositive s'intitule « La science des données est bloquée en première vitesse ». La diapositive montre un diagramme à secteurs divisé en trois sections. 76 % du diagramme est consacré à « Trouver des données, obtenir l'accès aux données, nettoyer données, agréger et normaliser les données, valider l'exactitude des données, vérifier les « gains » dans les modèles et « mettre à jour et superviser les actifs de données ». 14 % du diagramme est consacré à « analyser les données » et 10 % du diagramme est consacré à « communiquer les résultats ».]
Bryan Smith: Du point de vue de la datalogie, on retrouve des scientifiques de données dans presque chaque organisation (publique, privée, petite, grande) dont les travaux piétinent, et qui consacrent environ 80 % de leurs efforts aux problématiques sous-jacentes que sont la préparation et le traitement des données. Cela va de la recherche à l'épuration et à l'agrégation des données, en passant par leur validation et leur mise à l'essai, puis suivant leur utilisation en tant que telle, à la mise à jour et à la supervision des actifs de données afin de garantir une circulation constante des données selon le format requis pour alimenter un modèle en toute confiance. On parle pour ainsi dire d'un modèle de pré-utilisation puis de post-utilisation, et c'est là que les travaux des scientifiques des données s'enlisent. Lorsqu'on utilise un, dix ou cinquante actifs de données, il est peut être possible, en tant que particulier ou en tant qu'équipe, de gérer de manière cohérente le flux de ces données au fur et à mesure qu'elles arrivent de partout, de les valider, de les intégrer à des modèles, de les superviser et de les mettre à jour, — de passer par toutes ces étapes selon un processus manuel. Dans ce nouvel univers, où des centaines de milliards de données simples proviennent de plusieurs centaines de milliers de sources différentes dans le domaine public, cela devient un problème matériel que nous devons résoudre parce qu'il est tout simplement impossible de mettre en place un modèle de gouvernance capable de contrôler le flux de ces données au sein d'une organisation afin de mettre en correspondance toutes les dispositions relatives à l'utilisation et aux exigences, dans le but de normaliser ces ensembles de données et ensuite de les transmettre de manière cohérente et en toute confiance, quel que soit ce qu'elles servent à alimenter. C'est vraiment le point d'inflexion que nous avons atteint dans l'univers du travail avec des données externes publiques ou simplement avec beaucoup de mégadonnées. Il est essentiel de mettre en place des systèmes qui libèrent les scientifiques de ce fardeau en leur permettant désormais de consacrer 80 % de leurs temps à l'analyse des données et à la production de rapports sur les résultats ainsi qu'à la génération de valeur et à l'automatisation en utilisant les outils dont nous disposons avec des entreprises intelligentes comme la nôtre, mais aussi les progrès technologiques qui nous permettent de traiter des données à un niveau que nous n'aurions sans quoi jamais égalé dans le passé. C'est vraiment là que beaucoup d'organisations s'enlisent. Elles investissent encore dans les ressources humaines pour résoudre ce problème sans porter attention à la datalogie nécessaire pour soutenir des travaux de très grande utilité en sciences des données lorsqu'on embauche des personnes et qu'on les intègre à l'organisation. C'est vraiment ce sur quoi nous aimons nous concentrer et loin de nous l'idée de vouloir remplacer vos scientifiques de données. Nous intervenons pour nous assurer qu'ils peuvent se focaliser sur ce qu'ils savent faire de mieux et sur ce qu'ils considèrent comme la partie la plus sexy de la datalogie. Malheureusement, les organisations pensent que les 76 % dont je parle font partie du quotidien d'un scientifique des données, mais il s'agit d'éléments à faible valeur ajoutée qui, bien qu'ils soient obligatoires, ne sont pas ceux auxquels des personnes vraiment intelligentes devraient consacrer leur temps et qui n'apportent aucune valeur ajoutée à l'entreprise. C'est une recette pour l'automatisation et c'est vraiment ce sur quoi nous nous concentrons en tant que société.
[La diapositive change. Sur la nouvelle diapositive figure une citation. « Une fois que les dirigeants d'une entreprise réalisent que les déchets d'une entreprise sont le trésor d'une autre entreprise, de nouveaux flux de valeur fondés sur les données commencent à prendre forme. – Rajana Young, vice-présidente et cheffe mondiale des données, Cardinal Health. »]
Bryan Smith: Je vais maintenant passer à un autre constat génial, à savoir que les entreprises commencent à se rendre compte que les données qu'elles génèrent ou qu'elles recueillent possiblement par accident ont une grande valeur commerciale et les rendent accessibles au moyen d'initiatives de données ouvertes, d'IPA ou en les vendant sur le marché en tant qu'actif. Il ne s'agit pas de renseignements permettant d'identifier des personnes et de savoir comment les cibler. On parle ici de renseignements sur tous les sujets, qu'il s'agissent de données géographiques de haut niveau ou des tendances en matière de flux et de ces types de données anonymisées qui, lorsque considérées comme actif unique, n'ont peut-être pas beaucoup de valeur en dehors de leur compétence principale, mais, comme l'a dit Vik, lorsqu'on commence à superposer ces données avec d'autres actifs apparentables et qu'on normalise les moyens d'y accéder, on peut alors commencer à tirer de la valeur d'ensembles de données apparemment sans rapport et à fournir des connaissances à des échelles qu'on n'aurait jamais pu soupçonner en les observant simplement avec des yeux manuels et Excel.
[La diapositive change. La nouvelle diapositive est intitulée « Catalogue ThinkData » et montre des captures d'écran de l'interface ThinkData avec de longues listes d'informations. Il y est écrit « Découvrez, gérez et enrichissez les données pour augmenter la valeur de toutes les parties de votre organisation ». En dessous de ce texte figurent trois points :
« 1. Découvrir : Obtenez une visibilité à l'échelle de l'entreprise sur n'importe quelle ressource de données, quelle qu'en soit la source.
2. Gérer : Une plateforme flexible qui s'adapte aux flux de travail existants au lieu de les remplacer.
3. Protéger : Des contrôles d'accès basés sur les rôles et une source unique de vérité assurent la protection des données. »]
Bryan Smith: C'est une tendance que nous observons, et c'est ce que nous cataloguons, indexons et commercialisons par le biais de notre catalogue de données. Je vais passer à la fin de démonstration dans un instant, mais de manière générale, nous constatons qu'il manque un élément important permettant de relier les fournisseurs de données aux utilisateurs de données et de leur fournir un moyen de découvrir des données, de les gérer de manière efficace et souple pour pouvoir les partager en toute confiance et ensuite de protéger le flux de ces données afin de pouvoir permettre un partage et une utilisation accrus de tous les actifs de données avec suffisamment d'assurance pour rassembler une foule de données et les distribuer en fonction des besoins d'une organisation. Je vais bientôt passer à la démo à ce sujet.
[La diapositive change. La nouvelle diapositive est intitulée « Comment nous créons de la valeur ». Le sous-titre est le suivant : « Nous aidons à construire un catalogue qui exploite la valeur des données, quelle que soit leur source ou leur complexité. » En dessous, la majorité de l'espace est occupé par deux logos : Geotab et le gouvernement du Canada. Le logo de Geotab est écrit en lettres majuscules modernes, et le logo du gouvernement du Canada affiche le mot « Canada » avec un petit drapeau canadien flottant au-dessus du dernier « a ». Sous le logo de Geotab, le texte se lit comme suit : « La télématique des flottes de véhicule à grande échelle était une mine d'or inexploitée. » Sous le logo du gouvernement du Canada, il est écrit « Agrégation de données provenant de plus de 70 sources afin d'établir une norme commune et d'accroître la visibilité ».]
Bryan Smith: Mais rapidement, pour lier toute cette présentation à deux exemples concrets. Prenons l'exemple de GEOTAB, qui est une société de télématique pour le suivi et la gestion de flotte. Geotab s'est doté d'un petit appareil qu'on installe sur des flottes comme celles de camions de FedEx et de Postes Canada. L'appareil recueille une foule de données sur la façon dont ces flottes se déplacent partout en Amérique du Nord. Je vais également vous donner un exemple canadien concernant le Conseil du Trésor et l'agrégation des données sur l'approvisionnement au sein de 70 ministères.
[La diapositive change. La nouvelle diapositive s'intitule « Créer de nouveaux produits d'information ». Trois flèches affichant chacune un titre forment un organigramme qui se lit de gauche à droite.
Sous la flèche « Renseignements obtenus à partir des données des partenaires », des cases avec des sources de données telles que l'analyse du trafic aéroportuaire, les mesures des centres de service, la météo et les obstacles routiers sont reliées à l'aide d'une flèche pointant vers l'étape suivante de l'organigramme.
Sous la flèche « Produits issus des données », les lignes se connectent toutes à un logo ThinkData Works. Trois nouvelles lignes partent du logo vers de nouvelles cases : optimisation des routes, analyse des routes à péage et indice économique régional. Les trois lignes convergent vers une flèche pointant vers la dernière étape de l'organigramme.
Sous la flèche indiquant « Clients servis » se trouvent trois puces :
- « Société de conseil en gestion mondiale
- Surveillance des routes à péage — trafic commercial
- Gouvernement — Études des répercussions de la COVID-19 »]
Bryan Smith: Dans le cas de GEOTAB, je crois que leur petit appareil s'installe sur le dessous de leurs camions. La finalité évidente de ce processus est de pouvoir savoir où se trouve votre camion à tout moment. Ce qu'il y a de moins évident avec ce processus, c'est que ce petit appareil recueille une foule de données à des moments très différents. Oui, on sait où se trouve le véhicule. On sait combien de temps il attend aux feux. À l'échelle du pays, centimètre par centimètre, on sait où il essaie de se garer et à quel moment il fait le plein. On sait combien de temps il attend à la frontière. Toutes ces connaissances commencent à provenir d'un seul actif de données, ce qui n'est pas vraiment à la compétence première de l'appareil au sens où on l'entend ordinairement, mais ce dernier génère énormément de valeur du simple fait qu'il existe et qu'il recueille ces renseignements. En travaillant en collaboration avec GEOTAB, on s'est en fait mis à rassembler toutes les données que cette société conservait dans sa base de données, qui n'était en fait qu'un immense plateau de renseignements qui n'avaient pas vraiment d'utilité, mais lorsqu'on a commencé à les décomposer et à les transformer en produits issus de données, on a pu commencer à étudier la valeur commerciale que cela pourrait avoir. Plutôt que de vendre des données sur les obstacles routiers, les intersections et le stationnement, on les a regroupées en un produit d'optimisation d'itinéraires qu'on a mis en marché avec des publicités de suivi des routes à péage ou, par exemple, avec une société de conseil internationale collaborant avec Fedex et dont les travaux visent des gains d'efficacité. Il s'agit d'un concept très intéressant, car on procède à un niveau supérieur pour transformer des actifs de données en un produit un peu plus facile à « digérer » pour les utilisateurs finaux. Ça implique également de considérer les données de manière légèrement différente. Ce qui n'était pas vraiment possible quand on considérait les données comme un gigantesque plateau au fond d'un entrepôt. Dès qu'on a déployé notre plateforme et qu'on s'est mis à créer des actifs de données à partir de ce fichier maître, on a compris de plus en plus clairement comment réassembler les pièces Lego pour concevoir ces nouveaux produits et les commercialiser. Si GEOTAB avait une bonne maîtrise de son actif de données, elle n'avait pas une gouvernance lui permettant d'avoir une vue d'ensemble et de savoir comment transformer un actif de données d'un plus un égal deux à un plus un égal 11, pour employer une expression figée, en le transformant en produits issus de données. C'est vraiment la valeur ajoutée qu'on essaie d'obtenir avec la gouvernance. C'est la valeur ajoutée qu'on essaie d'obtenir en assurant la visibilité de l'actif, et la valeur obtenue en le livrant à un client de façon efficace. Une société de conseil internationale n'aurait pas été en mesure d'acheter un produit issu de données optimisé pour les itinéraires routiers de GEOTAB dans son ancien modèle. Cela aurait obligé GEOTAB à lui donner accès à toute sa base de données et le cabinet de conseil aurait été contraint de suivre le processus et de tout concevoir de A à Z. Nous ce qu'on fait, c'est qu'on ajoute une couche de gouvernance qui permet de morceler ce processus et de le fournir aux utilisateurs de manière à ce qu'ils puissent immédiatement l'intégrer à quelque chose qui va leur générer de la valeur.
[La diapositive change. La nouvelle diapositive est intitulée « Collaboration avec le SCT ». Le sous-titre est : « ThinkData s'est associé au Conseil du Trésor pour centraliser et analyser les dépenses des ministères, augmentant ainsi la transparence des achats gouvernementaux. » En dessous, cinq cases indiquant « Santé Canada », « Défense nationale », « Agence du revenu du Canada », « Services frontaliers » et « Immobilier » sont regroupées à l'aide d'une parenthèse ondulée au-dessus d'un logo indiquant « Namara ». Une flèche pointe vers le bas depuis le logo Namara jusqu'au bloc de texte intitulé « Tableau de bord des rapports financiers ». Il comporte trois puces :
- « Données nettoyées et normalisées
- Données distinctes fusionnées pour une vue d'ensemble
- Visualisation personnalisée et configurable
- Volet unique, source unique de vérité »
Sur le côté droit de la diapositive, un ordinateur portable affiche une capture d'écran de l'interface Namara comportant plusieurs graphiques.]
Bryan Smith: Autre exemple rapide : notre collaboration avec le Conseil du Trésor. Il s'agit d'un projet que nous avons réalisé il y a quelques années, et je crois que c'est un autre très bon exemple, qui a permis de rassembler des données sur les achats et sur tout ce qui dépasse 50 000 dollars d'environ 70 ministères différents. C'est à mon avis un très bon exemple de, encore une fois, de l'utilisation d'une plateforme de gouvernance appropriée pour extraire des données convergentes à partir de sources similaires. Chaque ministère publiait évidemment le même type de données sur les achats. Mais ces données n'étaient pas organisées, recueillies et publiées de la même façon. Il était vraiment difficile de savoir combien le gouvernement du Canada dépense annuellement en produits IBM. C'était d'autant plus difficile que IBM est enregistré de plusieurs façons différentes. Ils ont environ 36 façons différentes d'enregistrer leur nom dans les bases de données. On ne cherchera pas à savoir s'ils le font exprès ou non. Une fois qu'on a commencé à rassembler tous ces éléments, on a pu créer des tableaux de bord pour le Conseil du Trésor permettant un suivi des dépenses globales du gouvernement. Dans le cadre de ce projet, on s'est tout particulièrement concentré sur le portefeuille de TI et efforcé de trouver une façon de consolider l'ensemble des licences du gouvernement. À l'issue de ces initiatives, des entreprises comme OpenText, Cisco et HP ont commencé à lever la main et à dire : « Hé, si vous pouvez consolider vos licences, ce sera plus facile pour nous et on sera heureux de conclure un accord pour le gouvernement » Grâce à une gouvernance et à des sondages et des données appropriés, ce processus de normalisation ainsi que la présentation de ces données en un format visuel, ont eu pour résultat de favoriser des discussions entre les deux parties sur la façon de mieux fournir un service à une organisation. Le gouvernement avait toujours eu accès à ces données, mais tout le processus consistant à transformer ces données en connaissances est vraiment rendu possible grâce à un processus de gestion appropriée des données et de leur transmission efficace à une organisation.
[La diapositive change. La prochaine diapositive s'intitule « Organiser les données dans un but précis ». Le sous-titre est : « Le déploiement d'un catalogue de données permet aux organisations de conserver, de recueillir, de transformer et de normaliser toutes leurs données dans un environnement unique, ce qui augmente la transparence et la gouvernance tout en réduisant les frais opérationnels et en accélérant la compréhension et l'analyse. » Un graphique affiche une colonne intitulée « Sources de données », sous laquelle se trouve quatre cases intitulées : « Données internes sécurisées », « Données internes transformées », « Données publiques » et « Données de tiers », reliées à un ordinateur portant le nom de « Catalogue de données ». Sous l'ordinateur, des puces indiquent :
- « Une collecte de données utiles à l'échelle de l'organisation
- Un seul endroit pour catégoriser, interroger, surveiller et maintenir les données
- Rend opérationnelles des données qui étaient auparavant inaccessibles à une grande partie de votre organisation »
Quatre flèches partent de l'ordinateur vers des cases figurant dans une colonne intitulée « Hausse du rendement ». Les cases affichent les titres « Source unique de vérité » « Visibilité accrue des données » « Qualité des données » et « Gouvernance des données améliorée ».]
Bryan Smith: À ce propos, je crois que c'est que le catalogue nous permet de faire. Le catalogue organise en fait les données intentionnellement, qu'il s'agisse de l'extraction de données internes, de données externes, de données publiques ou de données provenant de tiers. On veut en fait les extraire selon une vision normalisée pouvant être partagée dans toute l'organisation selon une quelconque logique, afin de rendre les données encore plus performantes, en créant une source unique de vérité, en y ajoutant de la visibilité, en favorisant une meilleure qualité des données et en améliorant la gouvernance globale des données, ce qui rend vraiment tout cela possible.
[La diapositive change. La nouvelle diapositive présente un cercle et un gribouillage abstrait. Le seul mot sur la diapositive est « Démo ». Bryan quitte le mode de présentation et passe à un autre onglet de son navigateur, atterrissant sur une page affichant « Namara Marketplace : Utilisez de meilleures données. » Une barre de recherche figure au beau milieu de la page. Tout en parlant, Bryan fait défiler la page, passant devant des listes de sujets, de fournisseurs de données et de données disponibles, toutes accompagnées de badges cliquables].
Sur cette note, je vais maintenant passer à la partie démo que tout le monde attend, je crois. Avant de parler de la plateforme en tant que telle, je crois que l'équipe de l'EFPC vous a envoyé quelques liens de notre part. L'un des liens mène à notre marché public. Si l'un des participants à la conférence souhaite cliquer sur ce lien, il s'agit d'un marché ouvert que chacun peut visiter et parcourir. Ce que nous faisons publiquement, dans l'intérêt collectif, c'est de fournir un endroit où les gens peuvent se mettre à découvrir des données d'une manière qui soit utile à leur organisation plutôt que de passer beaucoup de temps à écumer Google pour savoir où accéder à telle ou telle donnée et lesquelles sont disponibles. Depuis la création de l'entreprise, on a déployé des efforts considérables pour organiser les données le plus logiquement possible. Et c'est en fait en répartissant les différents types de données en plusieurs catégories qu'on a évolué au cours des dernières années. Il y a les fournisseurs de données ouvertes, que tout le monde devrait connaître, notamment l'excellent portail de données ouvertes du gouvernement du Canada. Ce qu'on constate, c'est qu'il existe aussi ce concept de données publiques, c'est-à-dire des données qui sont disponibles dans le domaine public, mais qui ne sont pas nécessairement publiées sur un portail de données ouvertes. Le service de police de Toronto, par exemple, publie des données, mais pas nécessairement au moyen d'un portail de données ouvertes, mais il s'agit tout de même de renseignements publics, et donc on appelle ça des données publiques. Et enfin, il y a les fournisseurs de données. Il s'agit en fait d'entreprises donnant accès à des données par plusieurs moyens différents. Comme au moyen d'une API. Ou en ayant un site web où on peut y accéder pour les télécharger ou alors nous avons créé des partenariats avec des organisations afin qu'elles entamer la diffusion de données dans le domaine public.
[Bryan clique sur un badge avec une icône en forme de ruche, et est dirigé vers la page de profil de BuzzBuzzHome. La page contient plusieurs encadrés affichant des renseignements sur l'entreprise, des sources connexes, une barre latérale de gauche avec des filtres de recherche, et une barre de recherche au-dessus d'une liste de fichiers de données.]
Bryan Smith: Toutes ces données sont en fait des ensembles de données en direct. Si vous cliquez sur notre marché, vous verrez une description, des informations générales sur l'ensemble de données lui-même, et vous verrez également les actifs qui sont accessibles. Il y a donc la méthode qui consiste à cliquer et à fureter.
[Bryan clique sur le logo de Namara Marketplace et retourne à la page d'accueil. Il fait défiler l'écran jusqu'à une liste de badges intitulée « Démographie et mode de vie ».]
Bryan Smith: Ce que nous on essaie de faire, c'est de relier tous ces différents actifs de données en un ensemble commun, auquel on se connecte et auquel on accède. Nous commercialisons également un exercice visant à créer des produits formés de données convergentes auxquels les gens peuvent avoir accès en ligne. Si on clique sur Indice de développement du marché, on voit qu'aux États-Unis, ces données sont extraites de plusieurs façons.
[Bryan clique sur le badge, ce qui l'amène à la page de données pour « l'Indice de développement du marché (É.-U.) ».]
Bryan Smith: Pour obtenir un tableau complet du recensement des États-Unis, on doit en fait se connecter à une cinquantaine de types de données différents et les normaliser. Nous ce qu'on a fait, c'est rassembler toutes les données, les normaliser et les rendre accessibles par le biais d'un produit normalisé. Ce sont des choses qu'on a nous-mêmes conçues, mais ce sont nos projets secondaires qui ont pour seul objectif de permettre un accès plus efficace aux données, parce qu'en fin de compte, ce que tout le monde recherche, c'est la valeur ajoutée qu'on tire de ces assemblages de données, et plutôt que de confier ça à des équipes de datalogie et d'alourdir leur travail, on résout le problème au moyen de la plateforme et on les met en marché sous forme de produit normalisé.
[Bryan retourne à la page d'accueil et tape dans la barre de recherche. Il est dirigé vers une page listant un éventail d'ensembles de données.]
Bryan Smith: Comme autre option, on peut aussi simplement faire des recherches générales. Disons qu'on veuille faire des recherches dans le domaine de l'environnement, c'est vraiment impressionnant d'entendre Vik parler des travaux qu'il effectue avec les actifs de données canadiens, mais imaginons que d'ici deux trois ans, l'équipe de Vik ait eu tellement de succès au Canada qu'elle envisage d'inclure d'autres administrations partout dans le monde et de devenir un véritable chef de file mondial dans le domaine de la publication de données géospatiales et environnementales. L'équipe de Vik pourrait alors chercher à rassembler un tas d'autres actifs de données provenant de différentes régions du globe. Nous on couvre maintenant tous ces domaines. Au moyen de notre plateforme, on peut commencer à se connecter à ces données, à les extraire, à les ingérer et à les transformer de manière à ce qu'elles correspondent à la façon dont l'équipe de Vik a fait correspondre tous les actifs de données qu'elle possède au Canada, de sorte que si elle extrait un ensemble de données issues de la Californie, ces données puissent réellement être mises en correspondance. Au fur et à mesure qu'on les fait transiter par la plateforme, on peut également les transformer pour qu'elles correspondent aux données canadiennes et on peut directement les superposer à ce qu'on élabore en interne. Donc ça, c'est vraiment la première étape de la découverte des données. Étape qui a pour objectif de réduire le temps que passent les entreprises à chercher des données et de leur donner un nouvel aperçu de ce qui est accessible, maintenant que tant de nouvelles entreprises publient des données. À la suite de cette étape, une fois qu'on a cerné un certain nombre de données pouvant générer de la valeur, on sort vraiment de cette phase de découverte pour passer à la phase de gouvernance des données.
[Bryan passe à un autre onglet de son navigateur. C'est une autre page de Namara intitulée « Données organisationnelles ». Un sous-titre indique « Il s'agit de tous les ensembles de données qui sont téléchargés et transmis à l'organisation ». Sous le sous‑titre se trouve une liste contenant des ensembles de données et quelques métadonnées. La barre latérale de gauche présente les options d'affichage des données : « Données », « Sujets », « Membres », « Groupes » et « Importations ».]
Tout débloque vraiment lorsqu'on commence à étudier la plateforme de gouvernance de données ou le catalogue de données que nous avons développé à ThinkData Works, et que nous appelons Namara. Ce qu'on voit ici n'est qu'un petit échantillon. J'ai récupéré des échantillons de données commerciales. On voit ici la plateforme interne qu'utiliserait ultimement une entreprise pour organiser ses données. Elle s'en servirait pour ingérer des données et les stocker dans un endroit centralisé. Elles seraient classées ici. Elles seraient partagées. Tous les concepts de gouvernance seraient représentés comme ceci. J'ai déjà téléchargé quelques ensembles de données ici, juste pour rendre la démo un peu plus rationnelle, mais si on clique sur un de ces ensembles,
[Bryan sélectionne un ensemble de données nommé « Importateurs américains — Ensemble de macrodonnées (déc. 2019) » et un tableau rempli de données segmentées en catégories de métadonnées apparaît.]
Bryan Smith: on accède en fait à l'ensemble de données ici qu'on peut mettre en correspondance avec un tas de choses et à des données qu'on peut vraiment valider. Si on considère ceci comme un fichier maître qu'on souhaite mettre en commun au sein d'une organisation, l'idée est de pouvoir l'utiliser comme moyen de déterminer quels affichages on veut partager au sein de l'organisation.
[Bryan sélectionne une boîte de données et trois petites icônes apparaissent dans celle-ci. Il sélectionne l'icône de filtre et un menu déroulant apparaît. Il choisit rapidement une option et les données se réorganisent dans le tableau. Il déplace le curseur sur un menu déroulant en haut à droite du tableau.]
Bryan Smith: Je viens de créer un filtre pour les données manquantes qui, dans ce cas particulier, sont celles sur les importateurs américains. Je peux également limiter le nombre de lignes. Alors dans les colonnes qu'on voit ici, on retrouve un tas de données liées à cette livraison en particulier. Imaginons que le nom d'un fournisseur contienne des données permettant d'identifier une personne. Ce ne sont pas des données à partager. Tout comme on ne doit pas partager une adresse, car du point de vue de la gouvernance, il s'agit de renseignements qu'on n'est pas autorisé à partager au sein de l'organisation.
[Bryan décoche deux cases correspondantes du menu déroulant et appuie sur un bouton nommé « appliquer ». Le tableau se réorganise.]
Bryan Smith: Au lieu d'ouvrir ce fichier dans Excel ou de le télécharger, ce qu'on fait en réalité, c'est travailler sur ce fichier maître qu'on a mis en correspondance et qu'on a extrait de cette source précise. On limite l'affichage à l'écart et on restreint le nombre de colonnes en éliminant ces deux colonnes potentielles de renseignements permettant d'identifier une personne qu'on se doit de protéger. Comme on peut le voir ici, on a 16 colonnes disponibles sur 18, et avec l'écart, on a, dans cet échantillon particulier, environ 1900 des lignes sur 4300 pouvant être partagées. Maintenant, cette organisation ne compte en fait que deux personnes, donc je ne vais rien pouvoir partager, mais je peux ensuite partager cette présentation particulière des données avec n'importe qui d'autre au sein de mon organisation dans le cadre de ses activités. Plutôt que de devoir expédier un ensemble de données complet d'une personne à l'autre ou pire encore, d'exporter l'ensemble de données, de le télécharger dans Excel, d'en créer une version, puis de l'expédier, je peux contrôler le flux de ces données à partir d'un point centralisé, contrôler la présentation de cet ensemble de données et commencer à gérer les données de manière centralisée. J'ai maintenant un seul point d'entrée dans toute mon organisation pour un seul ensemble de données, et je peux contrôler qui se connecte à quoi dans toute l'organisation, ce qui simplifie vraiment la gestion des données et la rend vraiment évolutive.
[Au-dessus du tableau, Bryan sélectionne un onglet dans l'ensemble de données intitulé « Spécification des données ». Il contient de grands champs vides avec des mesures de données.]
Bryan Smith: On a également intégré une fonction de spécification des données. C'est ici que nous générons toutes les statistiques sur les données et les passages. Je viens tout juste d'extraire ces données, alors il n'y a malheureusement aucun renseignement. Si les données s'actualisent sur une base quotidienne, on sera en mesure de voir les statistiques générales relatives à la gestion, à la surveillance, et à l'entretien de l'ensemble des données. Plutôt que d'avoir à entrer dans l'ensemble de données lui-même, je peux examiner la spécification des données pour m'assurer que leur flux est cohérent et qu'elles circulent comme je suis habitué à les voir circuler, de sorte que mes modèles y réagiront toujours de la même manière et que je n'aurai pas à corriger ou signaler quoi que ce soit à l'organisation.
[Bryan sélectionne « Thèmes » dans la barre latérale de gauche. Sur la « page des thèmes », un seul ensemble de données se trouve dans une liste consultable.]
Bryan Smith: Ce qu'on peut aussi faire, et je vais à nouveau conclure sur ce que Vik disait, c'est d'étudier comment ajouter une visibilité commerciale ou de retour sur investissement aux ensembles de données et comment avoir des discussions éclairées pour déterminer quelles données ont une valeur ajoutée pour l'organisation et celles qui devraient être prioritaires. Disons que nous utilise ce catalogue pour recueillir tous nos actifs de données. Ce qu'on peut aussi faire, c'est de commencer à créer des thèmes.
[Bryan sélectionne un bouton dans le coin nommé « Créer un thème ». Une boîte de dialogue s'ouvre et Bryan tape dans un champ de celle-ci.]
Bryan Smith: Je pourrais mettre le projet stratégique de Vik ici. On va l'appeler le projet numéro un, car je crois que Vik a plusieurs projets stratégiques en cours. Alors ce que j'ai fait ici, c'est en fait de créer un espace dans lequel je peux commencer à cataloguer des données.
[Pendant qu'il parle, Bryan retourne à l'ensemble de données et clique sur un bouton nommé « classifier ». Une barre latérale apparaît sur la droite. Celle-ci montre l'organisation ainsi qu'une liste de thèmes dotée d'une fonction de recherche. Bryan clique sur une case à côté de « Projet stratégique de Vik no1 ». Il retourne à la page des Thèmes et sélectionne « Projet stratégique de Vik no1 ». Sous le titre, l'ensemble de données apparaît.]
Bryan Smith: Si je reviens aux données, supposons que les données sur les importateurs américains sont celles qu'on veut recueillir dans ce cas particulier. Je peux maintenant les classer, les ajouter au projet stratégique de Vik, et me voilà maintenant organisé sur le plan commercial et des retours sur investissement, ce qui me permet maintenant de commencer à examiner ces données en fonction de thématiques précises et de pouvoir dire : « Hé, notre organisation est exploitée à partir de centaines de milliers d'ensembles de données, mais examinons maintenant nos actifs de données en fonction d'une valeur commerciale, d'un retour sur investissement ou d'une valeur de projet particulier, et prenons des décisions à un haut niveau quant aux actifs de données à prioriser, ceux sur lesquels on doit se focaliser, et sur la façon de les partager au sein l'organisation. Cette plateforme offre de nombreuses possibilités de gouvernance, mais toutes sont très dynamiques et personnalisables, et c'est ce que nous recherchons.
[Les panneaux vidéo de Neil et de Vik apparaissent à l'extrême droite de l'écran sous Bryan.]
Neil Bouwer: Bryan, je dois juste dire que tout ça est vraiment génial parce que vous nous montrez là une source unique de vérité. Les données sont accessibles à tout le monde à partir d'un point d'accès unique. Vous adaptez vraiment tout ça à chacune des équipes. Ce serait génial d'être un cadre de la fonction publique et connaître les actifs de données dont je dispose de cette manière. Je dois dire que tout ça est vraiment génial.
Bryan Smith: Oui. Merci, Neil. Je vais conclure très rapidement avec un dernier point, et, là encore, c'est un point que Vik a déjà soulevé et un point très important à mon avis, à savoir que l'obtention et l'organisation des données constituent deux des trois piliers de la transformation des données. Le dernier est en fait l'enrichissement ou la monétisation ou le temps de compréhension, je suppose que je l'appellerais ainsi. Oui, il y a beaucoup de valeur à tirer du simple fait de donner aux gens l'accès à des données et de leur permettre de les organiser, mais on peut encore utiliser ces données et les intégrer à un modèle ou à un tableau de bord de plusieurs façons.
[Bryan clique sur un bouton nommé « connecter à l'API » et une barre latérale s'affiche, montrant différentes options de langage de programmation].
Bryan Smith: Ce qu'on fait au moyen cette plateforme, c'est de faciliter une connexion directe au moyen de l'interface API. On introduit un tas d'intégrations différentes en personnalisant la façon dont on peut ensuite extraire tout ça et l'intégrer directement à une application ou à l'environnement de datalogie d'une organisation. Ce qui est vraiment génial, c'est qu'en étant en mesure d'interagir directement avec l'API des plateformes pour un ensemble de données particulier,
[Bryan ferme la barre latérale.]
Bryan Smith: on peut aussi mieux comprendre l'utilisation de cet ensemble de données au sein de l'organisation puisque tout le monde est connecté à ce dossier maître et à cette source unique de vérité, comme l'a mentionné Neil. Le problème avec le téléchargement et le partage de données c'est qu'on perd toute visibilité quant à l'utilisation qui est faite de cet actif de données. Ce qui n'est vraiment pas une bonne chose du point de vue de la réglementation gouvernementale, car un contrôle doit être exercé sur tous ces actifs de données. Du point de vue des cas d'utilisation, e n'est pas une bonne chose non plus. Imaginons que l'équipe de Vik ait accès à 100 ensembles de données et que la question commerciale qui se pose est de savoir de quelles données on se sert réellement pour résoudre des problèmes ou quelles données sont les plus précieuses pour entraîner un modèle qu'on est en train d'élaborer. Lorsqu'on accède directement à une interface API à partir d'une plateforme comme celle-ci, on dispose toutes les mesures en arrière-plan pour savoir comment ces données sont utilisées, où elles sont utilisées, à quelle fréquence elles sont utilisées et à quoi elles servent. D'un point de vue commercial, ça devient vraiment important de se dire : « Bon, investissons dans cet actif de données s'il a de la valeur » ou « Si on paie pour cet actif, justifions-en le coût selon des mesures d'utilisation réelles, et pas seulement en fonction du concept qualitatif de son existence dans notre écosystème ». C'est, ce que nous essayons de mieux comprendre dans le cadre de notre collaboration avec bon nombre de chefs d'entreprise. Ne pas mettre en place une solution de gouvernance n'est pas une procédure appropriée. Oui, l'aspect réglementation, bonne gouvernance et bonne entreprise citoyenne est très important, mais c'est le mauvais côté des choses. On veut éviter d'être poursuivi en justice. On veut fonctionner dans les règles. On veut éviter de révéler les renseignements personnels d'autrui. Mais il y a aussi un côté positif à la gouvernance des données, car elle permet réellement d'accroître la visibilité et la confiance en ce qui a trait à l'utilisation des données à tous les paliers de votre organisation, et facilite la génération de mesures pour valider des investissements. Je crois que lorsqu'on envisage le retour sur investissement d'un point de vue commercial, et non du point de vue de la datalogie, il est très important de tenir compte de la confiance budgétaire et de la bonne gouvernance d'entreprise. Je dirais que c'est en fait l'autre aspect du problème qu'en tant qu'ingénieurs et scientifiques des données, on se limite à ne parler que de la proposition de valeur pour le scientifique des données. Pour les entreprises, il importe également que tout ça facilite grandement la vie au moment de déterminer où dépenser les ressources, ce qu'il faut acheter et ce sur quoi il faut se concentrer. Sur ce, je vais m'arrêter là et je crois qu'on va maintenant passer à une période de questions et réponses. Je serai heureux de traiter de n'importe quel sujet plus en détail.
[Le partage d'écran de Bryan disparaît, puis les trois panneaux vidéo occupent l'écran.]
Neil Bouwer: C'est sûr. Tout d'abord, merci, Bryan. Quelle présentation tout à fait remarquable, quelle démo géniale et une solution vraiment intéressante. Un rêve devenu réalité, je crois, pour bon nombre de gens désirant comprendre leurs actifs de données et souhaitant essayer de développer des cas d'utilisation ou qui se questionnent sur la façon d'utiliser les données pour générer de la valeur. J'ai tout de suite une question à vous poser à tous les deux. Vous avez tous deux brièvement parlé du partage de données en dehors du gouvernement, mais il va sans dire que le gouvernement est une vaste et complexe organisation et je crois que nombreux sont ceux qui aimeraient aussi comprendre dans quelle mesure cette plateforme ou une autre et la proposition de valeur que constitue le partage des données entre ministères ou entre divisions d'un ministère. Rendons-nous à l'évidence, ces données sont parfois cachées. Peut-être Vik et ensuite Bryan. Quelles sont tout d'abord vos vues sur la valeur du partage des données en interne et croyez-vous que cette solution soit analogue à ce que doivent faire les ministères en interne.
Vik Pant: Merci. Merci, Neil. Merci, Bryan, pour cette démonstration très édifiante. Ce n'est jamais facile de faire une démonstration en direct. Je vous félicite vraiment d'avoir pu nous exposer la gamme complète des solutions qu'offre votre système. Bon peut-être pas la gamme complète, mais c'est une excellente démo. Merci. Oui, tout à fait Neil. Je crois que Bryan et moi avons tous deux parlé de l'importance des données et en quoi elles constituent un atout très singulier permettant des gains multiplicatifs et exponentiels lorsqu'on se met à les combiner avec d'autres données.
[Le panneau de Vik remplit l'écran. Une boîte de texte violette dans le coin inférieur gauche l'identifie : Vik Pant, Ressources naturelles Canada.]
Vik Pant: On ne peut pas nécessairement en dire autant lorsque d'autres types d'actifs ou de ressources sont combinés. Ça peut donner lieu à certaines améliorations supplémentaires linéaires ou même sublinéaires, mais ce qu'on mesure c'est le résultat du rendement de l'emploi qu'on fait de cet actif. D'un point de vue très intuitif, le partage des données est une excellente chose, simplement parce qu'on se trouve à combiner différents ensembles de données. Une excellente chose d'un point de vue intentionnel également, lorsqu'on sait que l'ensemble de données B couplé à l'ensemble de données A permettrait d'obtenir une meilleure connaissance du modèle qu'on entraîne que l'ensemble de données A ou l'ensemble de données B à lui seul. Il y a aussi les inconnues insoupçonnées. Très souvent, les ensembles de données renferment des corrélations latentes ou cachées et ce n'est que lorsqu'on se met à les combiner, à entraîner des modèles et à effectuer différents réglages, calibrages et optimisations qu'on commence à libérer une partie de cette valeur cachée. Je crois qu'à un niveau abstrait, les données ont certainement cette valeur. Je crois que d'un point de vue très pratique, le partage des données est également important, car je pense qu'il y a maintenant une prise de conscience au sein du gouvernement. On sait qu'il y a des agents de données en chef. Il y a des agents d'information très avertis. Les SMA et les dirigeants au sein de tous les services gouvernementaux sont très conscients de l'utilité que peuvent avoir les données pour promouvoir, ne fût-ce que d'un point de vue technique, les priorités et les objectifs politiques qui les concernent, Neil. Je crois qu'il y a une ouverture et une réceptivité. Un désir d'avoir des discussions sur le partage des données, la co-création de connaissances, l'apprentissage collaboratif et le transfert d'apprentissage entre autres. J'ai vraiment apprécié la façon dont Bryan a abordé l'importance de la gouvernance parce que, comme on le sait, les données étant un actif porteur de valeur et de propositions étonnantes en ce qui a trait à la création de bénéfices et à la création de jeux, je ne peux pas simplement vous dire : « Neil, vous avez un ensemble de données A. J'ai un ensemble de données B. Est-ce qu'on peut faire un échange? C'est plus compliqué que ça. Comme Bryan l'a évoqué, il y a des aspects juridiques auxquels on doit également penser. Il y a des règles. Il y a des règlements. Il y a des codes de conduite portant sur la façon d'utiliser les données, l'usage qu'on peut en faire, la façon de les transférer, les types de transferts qu'on ne peut pas faire. Je crois qu'on dispose aussi d'une très bonne expertise juridique au sein du gouvernement, et dans certains cas, les ministères doivent faire appel à leur équipe juridique lorsqu'ils mettent en correspondance certaines données pour la première fois. D'autres ministères sont peut-être déjà très avancés quant à la façon de rassembler et de partager des données provenant de plusieurs sources différentes. Ils sont peut-être plus plus à l'aise pour échanger et transférer des données. La proposition de valeur est réelle. Je crois que la prise de conscience de la valeur ajoutée du partage des données et de l'échange de connaissances est réelle, et que maintenant il s'agit simplement de les rendre opérationnels et pratiques. Même là, comme je l'ai mentionné, Neil, il y a différents ministères, différents degrés de, disons, de maturité concernant la capacité à gérer des relations de confiance multipartites en matière de données. Je crois que c'est un mouvement qui a déjà pris de l'ampleur au sein du gouvernement. L'adoption de tels outils en tant que pilier essentiel pour réaliser des progrès dans le cadre de cette démarche combinatoire ne fait que commencer.
Neil Bouwer: C'est sûr. Et vous, Bryan? Avez-vous aussi constaté des cas d'utilisation au sein des organisations?
[L'écran revient aux trois panneaux vidéo, puis le panneau de Bryan remplit l'écran.]
Bryan Smith: Oui. Je crois que de notre point de vue, c'est intéressant parce qu'on aurait tendance à croire que plus on partage de données, moins on a de contrôle, et ce qu'on constate, c'est qu'avec une bonne gouvernance, c'est exactement le contraire en fait. C'est sur ce point que nous travaillons avec de nombreuses organisations. C'est-à-dire d'arriver aux résultats qu'on sait qu'on doit atteindre grâce à la datalogie. Car on sait qu'il y a des données à profusion partout. On sait qu'elles peuvent résoudre tous nos problèmes et on sait qu'elles sont trop massives pour qu'on puisse les gérer actuellement.
[Une boîte de texte violette dans le coin inférieur gauche l'identifie : Bryan Smith, ThinkData.]
Pour remédier à cela, il faut les partager, car les données collectives sont toujours plus volumineuses que les données individuelles. Pour s'affranchir de cette contrainte, on doit partager les données, et on doit le faire en toute sécurité. Alors pas question de se dire : « tu as l'ensemble de données A, j'ai le B, allons partager ça sur un appareil local à l'insu de tout le monde ». Avec l'instauration d'un modèle de gouvernance approprié, ce partage devient beaucoup plus facile, beaucoup plus universel et beaucoup plus sûr. On a du mal à s'imaginer qu'en partageant davantage les données, on les rend plus sûres, mais c'est vraiment le cas, en fin de compte. C'est assez étrange. Avec le modèle sous-jacent approprié, c'est la véritable valeur de ce que nous proposons du point de vue de la gouvernance. Il faut arriver à contrôler la livraison des données de A à Z, de la source à la cible. Il faut recueillir toutes les métadonnées au cours de ce processus. On met ainsi toutes les chances de réussir de son côté. Vous vous demandez sans doute pourquoi faire cela plutôt que de simplement rechercher des données avec Excel ou Power BI. Je vous dirais de faire ça une fois ce processus terminé. Vous configurez le partage convenablement et ensuite vous intégrez les données dans Excel ou vous les intégrez dans notre IPA Power BI parce que vous continuez toujours à recueillir toutes les données et vous mettez tout en place pour assurer une gestion adéquate de l'ensemble des données. Lorsqu'une source modifie ses conditions de licence, on l'apprend d'emblée, au lieu d'apprendre trois mois plus tard qu'on a contrevenu aux règles en partageant quelque chose au sujet d'un ensemble de données qu'on n'est plus autorisé à utiliser. Tous ces éléments contribuant réellement à soutenir cette mise en commun croissante de données doivent être mis en place. Une fois ces éléments en place et une fois que vous êtes certain de tout recueillir, vous pouvez partager les données avec qui vous voulez, car si un signal d'alerte est lancé quelque part, vous pouvez fermer tous vos canaux. C'est beaucoup plus facile que d'essayer de se souvenir du nombre de fois où on a comprimé tel fichier, où on en a fait des copies, à qui on l'a envoyé, et à qui on doit envoyer un courriel très déplaisant disant : « S'il vous plaît, dites-moi que vous n'utilisez pas cela dans un environnement de production » C'est vraiment le partage du pouvoir de notre point de vue.
[Les trois panneaux reviennent à l'écran.]
Neil Bouwer: Ça a l'air génial. C'est comme si on contrôlait une conduite d'eau au lieu d'apporter des seaux d'eau. Quelques questions rapides pour vous, Bryan, concernant votre démo. Y a-t-il des ensembles de données gratuits et accessibles au public canadien au carrefour Namara?
Bryan Smith: Oui. Toutes les données ouvertes sont gratuites et accessibles pour tous ceux qui utilisent la plateforme. Nous ne monétisons pas les données ouvertes. En tant que service d'intérêt public, nous rassemblons ces renseignements afin de les rendre plus faciles à trouver pour les gens. Lorsque nous travaillons avec des entreprises, il y a différents termes associés. Certains les vendent, d'autres les rendent accessibles par le biais d'une IPA avec des conditions de service, et certaines données sont destinées à un usage commercial, d'autres non. Nous avons rassemblé tous ces renseignements sur la plateforme et on peut les trouver en cliquant dessus. À niveau élevé, on peut accéder à des échantillons suffisamment volumineux pour que chacun puisse tester le modèle qu'il essaie d'élaborer, et c'est ce qu'on incite toujours nos fournisseurs à mettre à disposition afin de permettre aux gens d'aller de l'avant et d'utiliser davantage de données.
Neil Bouwer: Incroyable. Pour les données géospatiales, vous vous fondez-vous sur les normes de l'Open Geospatial Consortium? Ça, c'est une autre question.
Bryan Smith: Bonne question. Nous nous fondons sur une norme globale. Je ne veux pas dire que nous nous fondons sur cette norme en particulier. Au lieu de créer nos propres normes, nous nous fondons sur celles du consortium mondial. C'est donc un oui prudent, car c'est notre philosophie générale.
Neil Bouwer: Philosophie.
Bryan Smith: Philosophie, oui.
Neil Bouwer: Je comprends. Utilisez-vous un langage d'interrogation structuré (SQL) ou non structuré (NoSQL) pour la plateforme?
Bryan Smith: Nous utilisons un langage structuré et toute la plateforme repose sur un langage d'interrogation structuré. En fait, pour accéder aux données ou les extraire. Toute requête dont le langage d'interrogation est semblable au langage SQL peut être exécutée à l'aide des mêmes fonctions sur la plateforme.
Neil Bouwer: D'accord. Impressionnant. Il y a d'autres questions, mais on va devoir s'arrêter ici. Je pourrais peut-être simplement vous demander de faire quelques observations finales. Nous avons des fonctionnaires en ligne, environ 1600 d'entre eux, qui ont visionné cette démo, qui pensent probablement aux données au sein leur organisation. Avez-vous des conseils à donner à l'heure de l'explosion des données, des plateformes de données, des données et de l'analytique? Y a-t-il un conseil que vous aimeriez donner aux participants? Je vais peut-être commencer par vous, Vik, et finir par Bryan.
[Le panneau de Neil remplit l'écran alors qu'il hoche la tête en même temps que Vik. Le panneau de Vik le remplace.]
Vik Pant: Merci. Merci, Neil. Excellente question. Je me penche sur la dernière question concernant les instruments permettant de se procurer l'excellente solution que Bryan nous a montrée. Une chose que j'aimerais dire, c'est que dans le cadre de l'Accélérateur numérique de Ressources naturelles Canada, nous réfléchissons certainement à de nouveaux modèles de partenariat. Prenons par exemple ThinkData Works. Leur apport de logiciels et de données est indiscutable, mais pensez à l'expertise qu'apporte Bryan, qu'apporte son équipe de scientifiques des données, et à toutes les connexions qu'ils apportent également. Lorsque nous, à Ressources naturelles Canada, établissons des partenariats avec des entreprises comme ThinkData Works, nous ne voulons pas qu'il s'agisse de partenariats transactionnels. Nous tenons vraiment à ce qu'ils soient stratégiques, comme l'a dit Bryan, stratégique. Nous voulons des partenariats relationnels. Il y a bien sûr des logiciels en échange de la rémunération obtenue pour ces logiciels, mais il n'y a pas seulement que les bits qui comptent pour nous. Ce qui nous intéresse, c'est de co-créer, de co-développer des solutions complémentaires et synergiques menant à des résultats bénéfiques à la fois pour nous et pour nos partenaires. Merci.
[Les trois panneaux reviennent à l'écran.]
Neil Bouwer: Impressionnant. Merci. Bryan.
[Le panneau vidéo de Bryan remplit l'écran.]
Bryan Smith: Oui. Je vais abonder dans le même sens que Vik. Nous ne sommes pas là pour vendre des produits sous pression. Nous sommes là pour promouvoir le développement au sein de ce mouvement. Nous sommes une entreprise canadienne qui a vu le jour grâce au Mouvement canadien pour l'ouverture des données. Je crois que nous comptons parmi les entreprises ayant investi très tôt dans ce domaine. Nous constatons aujourd'hui la valeur de cet investissement. Cela n'a été possible que parce que le gouvernement du Canada a rendu toutes ces choses accessibles et a montré la voie. Nous figurons sur un tas de listes d'offres permanentes. Tous les canaux d'approvisionnement habituels sont ouverts. Ce qui nous intéresse par-dessus tout, c'est de chercher des occasions de tester la mise en correspondance des données, car, tout compte fait, nous préférons que quelqu'un achète une solution à un problème plutôt qu'un élément de technologie à ajouter à un environnement. C'est une recette gagnante pour nous tous. Alors, si vous en avez l'occasion, je vous invite à venir nous parler. On trouvera des moyens de faire avancer les choses et des moyens de trouver une solution. Vous n'aurez rien à payer avant de pouvoir obtenir quelque chose. Nous avons des déploiements déjà disponibles au sein du gouvernement du Canada qui peuvent être testés et validés. J'espère que nous pourrons travailler avec le ministère des Ressources naturelles et intégrer ce projet à ses activités, ce qui serait un excellent exemple d'utilisation. N'hésitez pas à venir nous trouver. Nous sommes ici pour collaborer, et certainement pas en tant que vendeur type.
[Les trois panneaux reviennent à l'écran.]
Neil Bouwer: Impressionnant. Merci beaucoup à vous deux pour vos remarques et pour la démo, Bryan, qui nous a permis de mettre les choses en pratique. Nous avons beaucoup de chance de vous avoir parmi nous et merci à tous d'être des nôtres.
[Neil règle son arrière-plan Zoom sur une page Web du gouvernement du Canada intitulée « La Série sur la confiance : Le rôle changeant des institutions publiques ». Son panneau vidéo remplit l'écran. Pendant qu'il parle, Neil navigue sur diverses pages d'activités.]
Neil Bouwer: Avant de terminer, je veux juste faire une petite publicité pour quelques événements à venir liés aux données que vous verrez à l'École de la fonction publique du Canada. Le premier est un événement sur la confiance. Il aura lieu le 3 mai et comprendra une discussion sur l'indice de confiance d'Edelman Canada, un suet très pertinent pour le Canada. Nous poursuivons avec la Semaine de démo d'outils de données. Demain, nous aurons une présentation sur les cas d'utilisation de l'intelligence artificielle réglementaire. Il y aura quelques démonstrations, dont une de Transports Canada, et une de cas d'utilisation interministériels. Vendredi, nous accueillerons également MindBridge, une société spécialisée dans l'analyse des données financières. Ce sera une séance vraiment super. Le même jour, nous avons un événement portant sur les règles en tant que code et l'idée de publier les exigences réglementaires et autres sous la forme de règles en tant que code, avec notre très chère Pia Andrews du CESD, ainsi que d'excellents intervenants de Code for Canada et du gouvernement français. Merci à tous de vous être joints à nous aujourd'hui. Merci d'être restés parmi nous tout au long de cette présentation vraiment fascinante. Nous espérons vous accueillir demain et vendredi lors des événements de la Semaine de démo d'outils de données. Il y aura également une rencontre pour la communauté des données vendredi après la séance de démonstration de données. Vous trouverez tous les détails à ce sujet sur GCconnex. Nous espérons vous voir lors de ces événements. Prenez soin de vous et passez une excellente journée.
[Les trois panneaux vidéo remplissent l'écran. Neil sourit, Bryan et Vik saluent de la main. L'appel Zoom s'estompe. Le logo blanc animé de l'École de la fonction publique du Canada se dessine sur un fond violet. Une page apparaît, puis elle se transforme en livre ouvert. Une feuille d'érable apparaît au milieu du livre, qui ressemble aussi à un drapeau en dessous duquel se trouvent des lignes courbes. Le mot-symbole du gouvernement du Canada apparaît : le mot « Canada » avec un petit drapeau canadien flottant au-dessus du dernier « a ». L'écran devient noir.]