banner

Nouvelles

Dec 24, 2023

L'apprentissage automatique entraîne l'évolution de la reprise après sinistre sur Facebook

Les hyperscalers ont des milliards d'utilisateurs qui ont accès à leurs services gratuitement, mais le plus drôle est que ces utilisateurs agissent comme s'ils payaient pour cela et s'attendent à ce que ces services soient toujours disponibles, sans excuses.

Les organisations et les consommateurs comptent également sur Facebook, Google, Microsoft, Amazon, Alibaba, Baidu et Tencent pour les services qu'ils paient également, et ils s'attendent raisonnablement à ce que leurs données soient toujours immédiatement accessibles et sécurisées, les services toujours disponibles, leurs résultats de recherche apparaissent toujours quelques millisecondes après la saisie de leurs requêtes et les recommandations qui leur parviennent sont personnalisées pour eux. Ces hyperscalers ont construit des réseaux de centres de données massifs, couvrant le monde entier, pour s'assurer que les données et les services sont proches de leurs clients et que la latence ne devienne pas un problème.

Compte tenu de tout cela, la reprise après sinistre devient un élément essentiel de l'entreprise. Les entreprises hyperscale doivent s'assurer que les activités peuvent continuer comme d'habitude même si un centre de données tombe en panne. Ils utilisent plusieurs zones de disponibilité situées dans des régions géographiques pour s'assurer que les données, les services et les charges de travail sont accessibles via d'autres centres de données en cas d'indisponibilité. Les hyperscalers comme Microsoft – qui rend Azure disponible dans 140 pays – ont également mis en place d'autres plans de reprise après sinistre, de la gestion des rôles dans les domaines d'erreur au basculement automatisé du trafic utilisateur vers une autre région si la région de l'utilisateur ne permet pas aux utilisateurs de géo-répliquer le stockage Azure vers des régions secondaires.

Pour Facebook, avec ses 2,1 milliards d'utilisateurs et ses centres de données mondiaux dans des endroits allant de Santa Clara, en Californie, à Ashburn, en Virginie, à Lulea, en Suède et à Odense, au Danemark, la reprise après sinistre est non seulement cruciale pour ses opérations, mais c'est aussi quelque chose sur lequel les géants des réseaux sociaux travaillent constamment.

"La capacité de gérer de manière transparente la perte d'une partie de l'empreinte mondiale de calcul, de stockage et de réseau de Facebook est un objectif de longue date de l'infrastructure de Facebook", a écrit un groupe d'ingénieurs de Facebook dans un article récent sur l'infrastructure de l'entreprise. "En interne, notre équipe de reprise après sinistre effectue régulièrement des exercices pour identifier et remédier aux maillons les plus faibles de notre infrastructure mondiale et de nos piles logicielles. Les actions perturbatrices incluent la mise hors ligne d'un centre de données entier avec peu ou pas de préavis afin de confirmer que la perte de l'un de nos centres de données mondiaux entraîne une perturbation minimale de l'entreprise. "

Garantir une haute disponibilité - bien que toujours critique pour les opérations - est devenu encore plus important à mesure que le rôle de l'intelligence artificielle (IA) et de l'apprentissage automatique est devenu encore plus répandu au sein des opérations de l'entreprise. Facebook tire parti de l'apprentissage automatique dans un large éventail de services, des classements dans le fil d'actualité et les recherches à l'affichage de publicités destinées à des utilisateurs spécifiques et Facer pour la reconnaissance faciale, ainsi que la traduction linguistique, la reconnaissance vocale et les opérations internes comme Sigma pour la détection des anomalies. La société utilise également plusieurs modèles d'apprentissage automatique, y compris les réseaux de neurones profonds, la régression logistique et les machines à vecteurs de support. Il existe des cadres d'apprentissage en profondeur comme Caffe2 et PyTorch et des capacités internes d'apprentissage automatique en tant que service comme FBLearner Feature Store, FBLearner Flow et FBLearner Prediction.

Comme nous l'avons noté dans The Next Platform, une grande partie de l'infrastructure d'apprentissage automatique distribuée et évolutive de Facebook est basée sur des systèmes conçus en interne, tels que le serveur GPU Big Basin, et s'appuie fortement sur les processeurs d'Intel et les GPU de Nvidia pour la formation et l'inférence. La croissance des capacités d'apprentissage automatique dans l'ensemble des opérations de Facebook accorde une importance encore plus grande à la reprise après sinistre, selon les auteurs de l'article.

"Pour les parties formation et inférence de l'apprentissage automatique, l'importance de la préparation aux catastrophes ne peut être sous-estimée", ont-ils écrit. "Bien que l'importance de l'inférence pour piloter plusieurs projets clés ne soit pas surprenante, il existe une dépendance potentiellement surprenante à une formation fréquente avant de remarquer une dégradation mesurable de plusieurs produits clés."

Pour mesurer cette importance, les ingénieurs de Facebook ont ​​effectué des tests pour déterminer ce qu'il adviendrait de trois services - News Feed, Ads et Community Integrity - s'ils n'étaient pas en mesure de former leurs modèles pendant une semaine, un mois et six mois.

Le premier impact évident a été l'efficacité des ingénieurs, car les progrès de l'apprentissage automatique sont souvent liés à des cycles d'expérimentation fréquents », ont-ils écrit. « Alors que de nombreux modèles peuvent être formés sur des processeurs, la formation sur des GPU permet souvent une amélioration notable des performances par rapport aux processeurs pour certains cas d'utilisation. Ces accélérations offrent des temps d'itération plus rapides et la possibilité d'explorer plus d'idées. Par conséquent, la perte de GPU entraînerait une perte de productivité nette pour ces ingénieurs. De plus, nous avons identifié un impact substantiel sur les produits Facebook, en particulier pour les produits qui dépendent fortement des actualisations fréquentes de leurs modèles."

Dans le service Community Integrity, qui vise à identifier et à supprimer les contenus répréhensibles, ne pas pouvoir former en continu des modèles signifierait une dégradation du contenu, ont écrit les auteurs. Le contenu du fil d'actualité deviendrait obsolète et l'impact sur les publicités - essentiellement l'incapacité de continuer à diffuser des publicités pertinentes aux bons utilisateurs - de ne pas pouvoir former des modèles peut être mesuré en heures. L'utilisation d'un modèle d'un jour est nettement pire que l'utilisation d'un modèle d'une heure.

"Dans l'ensemble, notre enquête a permis de souligner l'importance de la formation en machine learning pour de nombreux produits et services Facebook", ont écrit les auteurs. "La préparation aux catastrophes de cette charge de travail importante et croissante ne doit pas être sous-estimée."

La montée en puissance de l'IA et de l'apprentissage automatique dans les opérations de Facebook a également obligé l'entreprise à changer la façon dont elle hébergeait ses ressources GPU. Facebook avait des serveurs de calcul avec des processeurs pour la formation et l'inférence dans presque toutes les régions du centre de données, une mesure pour compenser si la plus grande région tombait en panne pour une raison quelconque. Cependant, les auteurs ont noté que le besoin d'une redondance similaire pour les ressources GPU pour la formation avait d'abord été sous-estimé. Les applications de vision par ordinateur ont été les premières charges de travail à utiliser des GPU pour la formation, et les données utilisées pour former les modèles ont été répliquées à l'échelle mondiale.

"Lorsque les GPU étaient nouveaux dans l'infrastructure Facebook, les déployer dans une seule région semblait être une option intelligente pour la gérabilité jusqu'à ce que les conceptions mûrissent et que nous puissions développer une expertise interne sur leurs exigences de service et de maintenance", ont-ils écrit. "Ces deux facteurs ont conduit à la décision d'isoler physiquement tous les GPU de production dans une région de centre de données."

Cependant, de nouvelles demandes sur les GPU ont changé cette façon de penser.

"En raison de l'adoption accrue du Deep Learning dans plusieurs produits, y compris le classement, la recommandation et la compréhension du contenu, la localité entre le calcul GPU et le Big Data a pris de l'importance", ont écrit les auteurs. "Et compliquer ce besoin de colocalisation des données de calcul était un pivot stratégique vers une approche de méga-région pour le stockage. La notion de méga-région signifie qu'un petit nombre de régions de centres de données hébergeront la majeure partie des données de Facebook. Incidemment, la région abritant l'ensemble de la flotte de GPU ne résidait pas dans la méga-région de stockage. "

Compte tenu de tout cela - et au-delà de l'importance de localiser les ressources de calcul avec les données, Facebook déclare qu'"il est rapidement devenu important de considérer ce qui pourrait arriver si nous devions jamais perdre entièrement la région abritant les GPU. Et le résultat de cette considération a conduit à la nécessité de diversifier les emplacements physiques des GPU utilisés pour la formation ML".

Avec les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception, sans rien entre les deux.Inscrivez-vous maintenant

PARTAGER