Ces données ont été initialement présentées dans la newsletter du 23 août 2023 disponible ici : https://www.trustinsights.ai/blog/2023/08/inbox-insights-august-23-2023-ai-culture-shift-non-lingual-data-and-ai/.

Cette semaine, parlons de données qui ne sont pas nécessairement du langage. Dans la hâte d’adopter l’IA générative pour littéralement tout, nous oublions parfois qu’une quantité énorme de données [a] n’est pas dans les modèles génératifs en raison des temps de formation (ChatGPT n’a notoirement plus de mémoire après septembre 2021 pour la plupart des tâches) et [b] n’est-ce pas un langage en soi que les grands modèles de langage sont capables de si bien traiter.

Par exemple, prenons les playlists Spotify. Les listes de lecture Spotify sont de riches sources de données ; Lorsque les utilisateurs les publient, nous en apprenons beaucoup sur la musique qui résonne dans la culture pop. Pourtant, si vous demandez à la plupart des grands modèles linguistiques quelles sont les chansons les plus populaires sur Spotify, la plupart d’entre eux n’obtiendront soit aucune réponse, soit des réponses hallucinatoires, car ces données ne sont pas facilement disponibles.

Alors pourquoi un grand modèle de langage comme GPT-4 (celui qui alimente la version payante de ChatGPT) ou d’autres ne serait-il pas le bon outil ? L’IA n’est-elle pas assez intelligente pour savoir quoi faire ? La réponse courte est non, et voici pourquoi. Dans ce cas d’utilisation spécifique – et il y en a bien d’autres, comme les titres de pages de votre blog, les noms d’entreprises dans vos données CRM, etc. – ces titres de chansons apparaissent comme un langage, mais ce n’est pas un langage.

Attends quoi? Comment le titre d’une chanson comme « Welcome to the Black Parade » n’est-il pas un langage ? Pour répondre à cette question, nous devons répondre à ce qu’est la langue. L’OED définit le langage comme ceci :

« la principale méthode de communication humaine, constituée de mots utilisés de manière structurée et conventionnelle et véhiculés par la parole, l’écriture ou le geste. »

Lorsque nous utilisons des mots de manière structurée et conventionnelle, nous utilisons non seulement les mots, mais les mots dans un ordre spécifique et rationnel pour transmettre un sens. C’est pourquoi les grands modèles linguistiques sont bons en langage, car dans leurs bibliothèques statistiques, ils ne comprennent pas seulement les mots, ils comprennent également les relations entre les mots et les autres mots. Ils savent que « J’ai mangé chez Burger King » n’est PAS la même chose que « Burger I at King Ate », même si ces deux morceaux de texte utilisent exactement les mêmes mots.

L’unité atomique de données dans une liste de lecture Spotify est la chanson, et la plupart des listes de lecture n’utilisent pas de titres de chansons dans la structure du langage. Il existe bien sûr des modèles : il existe des playlists entièrement composées de chansons tristes ou de chansons pour l’anniversaire de quelqu’un, mais cette structure n’est pas un langage car elle n’est ni structurée ni conventionnelle. Vous ne pouvez pas rassembler une pile de listes de lecture et déduire la signification de la liste de lecture uniquement à partir de l’utilisation des chansons et de leur ordre dans la liste.

Lorsque nous utilisons des données analytiques, nous ne nous intéressons pas nécessairement au langage lui-même, mais à la dimensionnalité des données. Par exemple, supposons que nous devions dresser une liste des meilleures chansons X sur Spotify cet été. La langue du titre de chaque chanson n’est pas quelque chose qui nous intéresse particulièrement ; ce qui nous intéresse, c’est la fréquence des titres de chansons dans leurs apparitions sur les playlists.

Ce n’est pas du langage.

C’est mathématique.

Et les modèles de langage, malgré les affirmations grandiloquentes de beaucoup, ne sont pas particulièrement bons en mathématiques. En fait, à l’origine, ils sont assez mauvais en mathématiques parce qu’ils ne peuvent pas réellement faire de mathématiques. Ils peuvent seulement prédire quel sera probablement le prochain mot dans une séquence en fonction d’autres mots qu’ils ont déjà vus. Ils savent que 2 + 2 = 4 uniquement parce qu’ils ont vu cette chaîne de texte particulière – la langue – à plusieurs reprises, et ils ont donc une compréhension statistique que lorsque 2 + 2 apparaît, les mots suivants dans la séquence sont probablement = 4. .

Lorsque nous examinons les titres des chansons et les listes de popularité, nous les traitons en réalité comme de simples données de haute dimensionnalité. Nous ne nous soucions pas vraiment du titre de la chanson (langue), nous nous soucions simplement de les compter (mathématiques).

Jetons un coup d’œil à un exemple. Nous avons téléchargé plus de 6 000 playlists Spotify publiées publiquement au cours des 3 derniers mois, qui ont toutes un format comme celui-ci :

Wolf Alice – Ne supprimez pas les baisers.mp3
Bleach Lab – Je pourrais être votre endroit sûr.mp3
Zeph – monde.mp3
Christian Kuria – Sunbleach.mp3
Del Water Gap – Ode à une conversation coincée dans votre gorge.mp3
Carly Rae Jepsen – Bends.mp3

Est-ce une langue ? Non. Il s’agit de trois dimensions de données : un artiste musical, un titre de chanson et un format de fichier. Le traitement de ces données implique de prendre les données et de les découper en composants afin que nous puissions les compter correctement.

Le top 40 des chansons de l’été sur Spotify ressemble à ceci :

Encore une fois, il s’agit de mathématiques, et comme il s’agit d’une tâche mathématique, elle n’est pas bien adaptée aux grands modèles de langage. Dans la mesure où ils y parviennent, leur qualité et leurs résultats seront inférieurs à ceux de l’apprentissage automatique traditionnel ou même aux techniques de base de la science des données. Ça compte.

Et alors? Quel est l’intérêt de cela, à part avoir de nouvelles chansons à ajouter à vos propres playlists ? Comprendre ce qu’est et ce n’est pas un langage nous aide à comprendre dans quelles tâches un grand modèle de langage et ses logiciels associés seront ou non bons. ChatGPT ne peut pas nous donner les meilleures chansons de l’été, même s’il disposait de données à jour. Il en va de même pour le contenu de votre CRM, le contenu de votre blog, etc. – si vous essayez de faire des calculs sur quelque chose, un modèle de langage (du moins dans ses incarnations actuelles aujourd’hui) n’est pas nativement le mieux adapté à gérer. la tâche.

Supposons que vous souhaitiez toujours utiliser l’IA générative. Comment feriez-vous cela? Il s’avère que les modèles de langage ont une solution de contournement : vous pouvez leur demander de coder. Vous pouvez leur demander d’écrire du code Python ou du code R ou le langage de codage de votre choix pour accomplir les tâches mathématiques que vous souhaitez effectuer, ce que j’ai fait avec les playlists Spotify. Je n’ai pas demandé à ChatGPT de me dire quelles sont les meilleures chansons de 2023. J’ai demandé à Spotify de m’aider à écrire le code nécessaire au téléchargement des données, puis à traiter les données sous forme de tableau, quelque chose que vous pouvez ouvrir dans un tableur. Pourquoi est-ce que ça marche ? Parce que le codage EST un langage, et donc les modèles de langage sont bons dans ce domaine.

Suivez cette leçon et appliquez-la à toutes vos données. Si vous utilisez un langage, un modèle de langage vous aidera. Si ce n’est pas le cas – si vous faites des mathématiques ou d’autres tâches non linguistiques – alors un modèle linguistique ne sera pas l’outil approprié pour le travail.


Besoin d’aide avec vos données et analyses marketing ?

Vous pourriez également apprécier :

Obtenez des données, des analyses et des perspectives uniques sur l’analyse, les informations, l’apprentissage automatique, le marketing et l’IA dans la newsletter hebdomadaire Trust Insights, INBOX INSIGHTS. Abonnez-vous maintenant gratuitement ; de nouveaux numéros tous les mercredis !

Cliquez ici pour vous abonner maintenant “

Vous souhaitez en savoir plus sur les données, les analyses et les informations ? Abonnez-vous à In-Ear Insights, le podcast Trust Insights, avec de nouveaux épisodes de 10 minutes ou moins chaque semaine.



Source link