Dans une récente tribune, Christophe Auberger, responsable technique chez Fortinet, un spécialiste de la sécurité réseau et de la gestion unifiée des menaces, explique pourquoi la sécurisation du Big Data dans les entreprises impose de définir une politique réfléchie et de mettre en œuvre des outils analytiques appropriés. Une réflexion qui concerne tous les hébergeurs impliqués dans cette problématique.

Poser la question de la sécurité du Big Data suscite souvent deux réponses opposées de la part des professionnels de l’IT : certains refusent catégoriquement que le Big Data soit traité différemment de l’infrastructure réseau existante tandis que d’autres préconisent un investissement dans une solution adaptée – et parfois surévaluée – compte tenu de la valeur actuelle ou supposée des données collectées.

Selon l’institut de recherche et de conseil Gartner, le Big Data est un gros volume de données informatives dont la collecte très rapide et/ou d’une grande variété, implique des formes de traitement appropriées pour en tirer une prise de décision, en extraire une nouvelle idée, en analyser un processus en vue de l’optimiser. Un autre institut, IDC, caractérise le Big Data selon quatre paramètres :

– Le volume de données qui peut dépasser l’échelle des téraoctets pour atteindre les zettaoctets et au delà (1 Zo = 1 milliard de téraoctets)

– La vélocité des entrées/sorties de données qui ne sont plus des ensembles statiques créés en une seule fois mais des flux dynamiques et continus

– La diversité des informations collectées sous forme de données − structurées, non structurées, semi-structurées, ou brutes

– La valeur des données qui s’estime par rapport à leur contexte de production et la capacité d’exploitation mise en œuvre.

Ces quatre paramètres distinctifs du Big Data ont fait apparaître de nouveaux défis de sécurité dans les réseaux de données existants. Pour relever ces défis il faut d’abord décider d’une stratégie de protection de ces données, c’est à dire déterminer des niveaux de confidentialité, d’identification, de classification, de degrés de sensibilité pour décider comment et où les informations critiques doivent être localisées, ainsi que pour établir des modèles sécurisés pour accéder aux données et pour les analyser.

Suivre le cycle de vie

Pour protéger le Big Data il faut définir les besoins spécifiques de sécurité en fonction du cycle de vie des données, en commençant par la collecte et en poursuivant par l’accès. Comme dans toute élaboration d’une politique de sécurité, l’évaluation de la menace qui pourrait peser sur le Big Data d’une organisation doit se faire en continu en suivant un processus qui doit garantir l’intégrité des données stockées et en cours d’analyse.

La performance demeure un élément clé lorsqu’on sécurise les données collectées et les réseaux en environnement Big Data : les pare-feux et autres dispositifs de sécurité tels que les systèmes de cryptage se doivent d’être ultra performants pour ne pas ralentir les débits au niveau des connexions et des applications. Mais cet environnement particulier complique la définition et la mise en application des politiques de sécurité du fait du volume de données pris en compte et du nombre de personnes qui auront besoin d’y accéder. La quantité de données accroît aussi la nécessité de parer aux fuites et impose d’utiliser des technologies appropriées (solutions de Prévention des Pertes de Données) pour s’assurer que l’information n’est pas divulguée à des tiers non autorisés. Les systèmes d’intégrité des données et de détection d’intrusions internes sont nécessaires pour détecter les attaques ciblées avancées qui contournent les mécanismes de protection traditionnels, par exemple, la détection d’anomalies dans les couches d’agrégation et de collectes. Tous les paquets de données, tous les flux, toutes les sessions et transactions doivent être inspectés minutieusement.

Le Big Data couvrant parfois des informations dispersées dans le cloud et provenant de sources multiples, il convient de protéger les données là où elles se trouvent. Pour cela, les systèmes de sécurité virtualisés fournissant une gamme complète de fonctionnalités devront être positionnés aux endroits stratégiques des architectures cloud (hybrides, privées et publiques). Ces ressources devront être connectées de manière sécurisée ainsi que les transferts de données depuis leur lieu de stockage, typiquement via un tunnel IPSec.

Quels outils !

Au delà des défis sécuritaires, le Big Data offre aussi de belles opportunités à conditions d’user des bons outils pour analyser ces importantes quantités d’informations. Elles permettent de comprendre le fonctionnement d’une organisation et, par exemple, de détecter des anomalies. Une veille attentive du comportement des usages s’écartant de la norme permet d’agir de manière proactive pour parer aux éventuelles fuites de données et aux dysfonctionnements des systèmes.

Cette attitude de précaution ne peut que reposer sur un personnel IT compétent et implique le déploiement efficace d’outils de sécurité appropriés : outils dédiés à la collecte des logs, à l’analyse et au reporting des évènements qui vont récupérer et agréger les données provenant des dispositifs et autres systèmes compatibles au protocole syslog. Ces équipements dédiés (appliances) vont également analyser, rapporter et archiver les événements de sécurité, le trafic réseau, le contenu Web, et les données de messagerie pour évaluer le niveau de respect des règles définies et produire des rapports personnalisés.

Mais la difficulté qu’il y a à saisir, à gérer et à traiter rapidement les informations dans les environnements Big Data peut inciter certaines entreprises à considérer cet aspect de la sécurité comme un élément secondaire. Pourtant, la croissance de la bande passante, du stockage et de la mobilité de gros ensembles de données, augmentent le risque de brèches et de divulgation d’informations sensibles. D’autres menaces peuvent provenir d’intrusions ayant pour objectif la manipulation du Big Data pour que les outils de « business analytics » et de « business intelligence » génèrent des résultats erronés et conduisent à des prises de décisions profitables aux commanditaires de ces attaques. De simples petits changements dans le Big Data peuvent avoir un impact important sur les résultats.

Les actifs du Big Data doivent donc faire l’objet d’une politique de protection adéquate puisqu’il s’agit généralement d’informations stratégiques pour les organisations qui les ont collectées et entendent les exploiter. Celles-ci doivent donc répondre aux préconisations d’usage en termes d’authentification, d’autorisation, de contrôle d’accès basé sur des rôles, d’audit, de sauvegarde et de récupération. A plus long terme, une vision analytique du Big Data impliquant l’évaluation et la surveillance comportementale sera nécessaire pour répondre aux nouvelles menaces sur la sécurité IT.

Le SIEM est-il une bonne solution ?

Certaines entreprises mettent en place des solutions de Security Information and Event Management (SIEM, Gestion des événements et des informations de sécurité) qui collectent et analysent les alertes de sécurité et les systèmes de logging. Cela peut poser problème dans le cas du Big Data si chaque log et alerte sont signalés comme des incidents potentiels. Selon l’auteur, ce mode de fonctionnement provient d’une vision défensive de la sécurité qui devrait laisser la place à une autre attitude consistant à ajouter une couche d’abstraction au dessus de toutes les données pertinentes de l’entreprise et se demander qu’elles sont effectivement ces données essentielles en terme de sécurité. Le suivi des logs au niveau du réseau (en particulier ceux détectés par le pare-feu, le système de détection d’intrusion ou IPS, etc.) et ceux des accès utilisateurs demeure indispensable. Cependant, les logs de sécurité des terminaux, ceux liés au proxy et même les données d’inspection approfondie des paquets risquent de ne plus être pertinents, selon Christophe Auberger, responsable technique chez Fortinet.

Quelques exemples de Big Data

De nombreux types d’informations peuvent constituer des données Big Data qu’il est possible d’analyser avec des solutions logicielles de « business analytics » ou de « business intelligence » pour ensuite déterminer des tendances micro-économiques ou stratégiques ou des profils d’utilisateurs ou de consommateurs.

Parmi les données qu’il est intéressant de collecter figurent les logs de sites Web, les données fournies par les puces RFID et les réseaux de capteurs, les données des réseaux sociaux, les typologies de documents et de textes consultés sur Internet, l’indexation des recherches sur Internet, les détails des appels en VoIP, les archives photos stockées dans le cloud, les dossiers médicaux, etc. Les informations d’ordre médical sont considérées en Europe comme des données hypersensibles qui doivent être stockées chez des hébergeurs agréés (par l’ASIC Santé en France) et consultables seulement par les patients et les professionnels autorisés.