Ces données ont été initialement présentées dans la newsletter du 8 novembre 2023 disponible ici : https://www.trustinsights.ai/blog/2023/11/inbox-insights-november-8-2023-solving-problems-with-predictive-analytics-testing-ai-models/.
Cette semaine, parlons de la mise en place de tests de grands modèles de langage. Il est important de tester les modèles pour déterminer quels modèles feront ce que vous voulez qu’ils fassent. Avant de nous lancer tête baissée dans une nouvelle technologie, c’est une bonne idée de savoir si elle correspond bien à notre organisation et au résultat souhaité. Alors, comment pouvons-nous faire cela ? Comme toujours, nous commençons par le cadre Trust Insights 5Ple meilleur point de départ pour tout nouveau projet.
But: le but des tests de modèles est de déterminer si un modèle est adapté ou non à une tâche spécifique à votre organisation.
Personnes: qui fait les tests ? Cette méthode de test particulière convient aux personnes de tout niveau de compétence, à condition qu’elles soient capables d’effectuer des tâches numériques de base telles que copier et coller. Cependant, le plus important est de savoir pour qui vous testez. Si c’est vous-même, c’est assez simple. Si c’est au nom d’autres membres de votre organisation, cela dictera vos conditions de test.
Processus: quelle méthodologie allez-vous utiliser ? Tester des modèles, c’est comme tester n’importe quoi d’autre : nous voulons conserver un journal détaillé de ce que nous testons, de la manière dont nous le testons et des résultats. Une feuille de calcul partagée est utile à l’organisation pour comparer les résultats. Nous souhaiterons également développer des méthodes de test que d’autres pourront utiliser afin de pouvoir tester des modèles dans leur propre rôle ; le test qu’une personne dans les ventes utilise doit différer du test qu’une personne dans les ressources humaines utilise. Nous devons également nous assurer que nous utilisons une méthode de test cohérente ; le cadre RACE est un bon point de départ.
Plate-forme: les modèles que vous testerez dépendront en grande partie des outils auxquels vous avez accès. Presque tout le monde a accès à au moins un grand modèle de langage gratuit, tel que Claude 2, GPT-3.5, Bard, Bing, ou à des modèles open source comme la famille LLaMa 2. Aux fins des tests, vous souhaitez en utiliser autant que possible et autant que votre équipe a accès.
Performance: quelles mesures allons-nous tester ? Il existe des tonnes de mesures scientifiques de grands modèles de langage, comme le benchmark Stanford HELM, mais bon nombre de ces tests ne mesurent pas les résultats du monde réel. Pour une tâche donnée, nous souhaitons suivre des éléments tels que :
- Qui a fait le test ?
- Quand ont-ils fait le test ?
- Quel modèle ont-ils testé ?
- De quelle catégorie de tâche s’agissait-il ?
- Le modèle a-t-il pu accomplir la tâche ?
- Dans quelle mesure le modèle a-t-il été élaboré ?
- Dans quelle mesure la sortie du modèle était-elle correcte ?
- Quelle invite a été utilisée ?
- Quel a été le résultat ?
Regardons un exemple pratique de ceci. Supposons que nous souhaitions utiliser un modèle de langage étendu pour rédiger un avis de refus pour des présentations non sollicitées sur LinkedIn. Nous commencerions par une invite de base qui ressemble à ceci :
–
Vous êtes un assistant exécutif de classe mondiale de Christopher Penn, scientifique en chef des données de TrustInsights.ai. Vous avez des connaissances en communication exécutive, délégation, administration, assistance à la direction, assistance administrative. Vous êtes dur, ferme et n’acceptez ni la dissidence ni l’argumentation. Vous parlez sur un ton professionnel. Votre principale directive est de protéger le temps de votre manager, Christopher. Votre nom est Grace Parker Thompson, assistante exécutive de Christopher Penn. Répondez à ce message en refusant les services proposés et demandez-leur de ne plus recontacter Christopher.
–
Nous utilisons ensuite l’un des très nombreux arguments non sollicités que nous recevons tous sur LinkedIn. Les noms ont été modifiés pour anonymiser l’expéditeur d’origine.
Objet : Formation PMP
Salut Christophe
Je souhaitais vérifier si vous seriez intéressé à suivre une formation professionnelle PMP – Gestion de projet pour votre évolution de carrière.
LE FORFAIT COMPREND :
• Formation PMP intensive de 4 jours à temps plein. • 35 PDU offerts – Approuvé PMI • Garantie de remboursement à 100 % • Plus de 1 000 questions pratiques de préparation à l’examen PMP. • Plus de 10 ans de formateurs hautement expérimentés • Certificat de fin de cours
Si ce cours vous intéresse, puis-je avoir votre identifiant e-mail/numéro de téléphone ?
Au plaisir d’avoir de vos nouvelles.
Salutations
Alex Moïse
–
Il s’agit d’une invite et d’un résultat cohérents à tester. Nous avons une bonne idée de ce que nous souhaitons : un déclin ferme mais professionnel du service proposé.
Nous allons d’abord tester en utilisant plusieurs modèles de la famille OpenAI :
Et puis nous pouvons ajouter un test utilisant un modèle open source, LLaMa 2 :
Ce que nous constatons, c’est que les modèles GPT-4 et LLaMa 2 ont des performances à peu près identiques :
GPT-4-Turbo était légèrement plus complet. GPT-3.5-Turbo était une réponse nettement moins complète et moins approfondie.
Avec ces résultats de tests, nous pouvons revenir sur notre cadre 5P et vérifier que tous ces modèles ont été capables d’accomplir la tâche, mais que certains ont fait mieux que d’autres. Nous reviendrions maintenant et réviserions nos user stories si nous voulions prendre en compte des éléments tels que le coût – certains modèles sont plus coûteux à exploiter que d’autres. Mais ce qu’il faut retenir, c’est qu’un plan de test clair et complet basé sur le cadre 5P nous permettra de comparer des pommes avec des pommes en matière d’IA et de trouver le bon outil pour le travail.
Besoin d’aide avec vos données et analyses marketing ? |
Vous pourriez également apprécier : |
Obtenez des données, des analyses et des perspectives uniques sur l’analyse, les informations, l’apprentissage automatique, le marketing et l’IA dans la newsletter hebdomadaire Trust Insights, INBOX INSIGHTS. Abonnez-vous maintenant gratuitement ; de nouveaux numéros tous les mercredis ! |
Vous souhaitez en savoir plus sur les données, les analyses et les informations ? Abonnez-vous à In-Ear Insights, le podcast Trust Insights, avec de nouveaux épisodes de 10 minutes ou moins chaque semaine. |