Ces données figuraient à l’origine dans la newsletter du 28 juin 2023 que vous trouverez ici : https://www.trustinsights.ai/blog/2023/06/inbox-insights-june-28-2023-monthly-reporting-part-4-common-crawl-in-ai/.
Dans les journaux de données de cette semaine, répondons à une question très courante sur les grands modèles de langage, une question que les gens posent presque tout le temps :
Sur quoi ces modèles sont-ils entraînés ?
Lorsque nous parlons de la formation d’un grand modèle de langage, des projets open source comme LLaMa aux grands services comme le GPT-4 de ChatGPT, nous parlons de l’ingestion de billions de mots à partir de contenu partout. L’une des sources les plus fréquemment citées dans tous les modèles s’appelle Common Crawl. Qu’est-ce que c’est?
Exploration commune est une organisation à but non lucratif qui explore et archive le Web. Ils ont 7 ans d’index sur le Web et le mettent gratuitement à la disposition du grand public. Qu’y a-t-il dans cette archive ? Eh bien… à peu près tout ce qui est ouvert sur le Web et autorisé à être exploré et indexé.
Depuis la dernière analyse, il y a plus de 88 millions de domaines uniques dans l’index comprenant plus de 50 milliards de pages de texte. C’est 6,4 pétaoctets de données.

Quelle est la taille d’un pétaoctet ? Si vous prenez le disque dur de 1 To d’un ordinateur portable haut de gamme moyen, vous en aurez besoin d’un millier pour équivaloir à 1 pétaoctet, soit 6 400 ordinateurs portables de stockage. Et gardez à l’esprit que ce n’est qu’un texte. Pas d’images, pas d’audio, pas de vidéo, juste du texte nettoyé stocké dans un format lisible par machine.
Parce qu’il s’agit d’une exploration du Web ouvert, il y a beaucoup de choses dans Common Crawl sur lesquelles vous ne voudriez pas nécessairement former une machine. Par exemple, il existe des contenus de groupes haineux importants dans Common Crawl, ainsi que des sites connus de mésinformation et de désinformation.
Pourquoi ces sites sont-ils utilisés dans la construction de modèles d’apprentissage automatique, alors qu’ils sont connus pour être problématiques ? Pour une raison simple : le coût. Les entreprises qui construisent aujourd’hui de grands modèles ne sont pas disposées à investir dans le coût de l’exclusion de contenu, même lorsque ce contenu est connu pour être problématique. Au lieu de cela, tout est jeté dans le mélangeur pour que les modèles apprennent.

Dans certains contextes, cela est utile ; un modèle ne peut pas identifier le discours de haine s’il n’a aucune idée de ce qu’est le discours de haine, donc si vous construisez une application pour détecter le discours de haine, vous en auriez besoin là-dedans. Cependant, dans les grands modèles génériques comme GPT-4, cela peut également les amener à générer des discours de haine. Pour les commerçants et les entreprises, ce serait certainement un problème.
Quelle est la solution ? Nous voyons des entreprises et des organisations commencer à créer des ensembles de données beaucoup plus organisés, en partie en prenant Common Crawl et en excluant le contenu manifestement problématique ainsi que le contenu de rang inférieur. Par exemple, tous les articles de blog sur blogspot.com n’ont pas besoin de faire partie de la bibliothèque de formation, et le contenu problématique connu peut certainement être exclu. Au fil du temps, attendez-vous à voir des modèles de plus en plus raffinés qui n’ont aucune connaissance des concepts problématiques pour commencer, et ces modèles seront mieux adaptés aux applications commerciales et professionnelles où les erreurs seraient totalement inacceptables.
Et alors? Alors que vous vous lancez dans le déploiement de solutions d’IA génératives, en particulier celles basées sur de grands modèles de langage, réalisez qu’il y a plus que ChatGPT – bien plus. Soyez à l’affût des modèles qui non seulement conviennent à vos cas d’utilisation spécifiques, mais qui sont exempts des problèmes que les modèles plus anciens et plus grands peuvent avoir.
|
Besoin d’aide avec vos données et analyses marketing ? |
Vous pourriez également profiter de : |
|
Obtenez des données, des analyses et des perspectives uniques sur l’analyse, les informations, l’apprentissage automatique, le marketing et l’IA dans la newsletter hebdomadaire Trust Insights, INBOX INSIGHTS. Abonnez-vous maintenant gratuitement ; nouveaux numéros tous les mercredis! |
Vous souhaitez en savoir plus sur les données, les analyses et les informations ? Abonnez-vous à In-Ear Insights, le podcast Trust Insights, avec de nouveaux épisodes de 10 minutes ou moins chaque semaine. |