GPT-4o d’OpenAI, le modèle d’IA générative qui alimente l’alpha récemment lancée du mode vocal avancé dans ChatGPT, est le premier de l’entreprise formé sur la voix ainsi que sur les données de texte et d’image. Et cela l’amène à se comporter de manière étrange, parfois, comme imiter la voix de la personne qui lui parle ou crier au hasard au milieu d’une conversation.
Dans un Nouveau rapport sur le « red teaming » En documentant les forces et les risques du modèle, OpenAI révèle certaines des bizarreries les plus étranges de GPT-4o, comme le clonage de voix susmentionné. Dans de rares cas, en particulier lorsqu’une personne parle à GPT-4o dans un « environnement à bruit de fond élevé », comme une voiture sur la route, GPT-4o « émulera la voix de l’utilisateur », explique OpenAI. Pourquoi? Eh bien, OpenAI l’attribue au modèle qui a du mal à comprendre le discours mal formé. D’accord !
Écoutez comment cela sonne dans l’échantillon ci-dessous (tiré du rapport). Bizarre, non ?
Pour être clair, GPT-4o ne le fait pas maintenant, du moins pas en mode vocal avancé. Un porte-parole d’OpenAI a déclaré à fr.techtribune.netque la société avait ajouté une « atténuation au niveau du système » pour le comportement.
GPT-4o est également enclin à générer des « vocalisations non verbales » et des effets sonores troublants ou inappropriés, comme des gémissements érotiques, des cris violents et des coups de feu, lorsqu’il est invité de manière spécifique. OpenAI dit qu’il existe des preuves suggérant que le modèle généralement Refuse les demandes de génération d’effets sonores, mais reconnaît que certaines demandes passent effectivement à travers la chaîne.
GPT-4o pourrait également enfreindre les droits d’auteur sur la musique – ou plutôt le ferait si OpenAI n’avait pas mis en place de filtres pour empêcher cela. Dans le rapport, OpenAI a déclaré qu’il avait demandé à GPT-4o de ne pas chanter pour l’alpha limitée du mode vocal avancé, probablement pour éviter de copier le style, le ton et/ou le timbre d’artistes reconnaissables.
Cela implique – mais ne confirme pas carrément – qu’OpenAI a formé GPT-4o sur du matériel protégé par le droit d’auteur. Il n’est pas clair si OpenAI a l’intention de lever les restrictions lorsque le mode vocal avancé sera déployé pour plus d’utilisateurs à l’automne, comme annoncé précédemment.
« Pour tenir compte de la modalité audio de GPT-4o, nous avons mis à jour certains filtres textuels pour fonctionner sur les conversations audio [and] ont construit des filtres pour détecter et bloquer les sorties contenant de la musique », écrit OpenAI dans le rapport. « Nous avons formé GPT-4o à refuser les demandes de contenu protégé par le droit d’auteur, y compris l’audio, conformément à nos pratiques plus larges. »
Il convient de noter qu’OpenAI a a récemment dit Il serait « impossible » de former les principaux modèles d’aujourd’hui sans utiliser des matériaux protégés par le droit d’auteur. Bien que la société ait conclu un certain nombre d’accords de licence avec des fournisseurs de données, elle maintient également que l’utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s’entraîne sur des données protégées par la propriété intellectuelle, y compris des choses comme des chansons, sans autorisation.
Le rapport de l’équipe rouge – pour ce qu’il vaut, compte tenu des chevaux d’OpenAI dans la course – fait brosser un tableau global d’un modèle d’IA qui a été rendu plus sûr par diverses mesures d’atténuation et de protection. GPT-4o refuse d’identifier les personnes en fonction de leur façon de parler, par exemple, et refuse de répondre à des questions tendancieuses telles que « à quel point ce haut-parleur est-il intelligent ? » Il bloque également les messages intempestifs pour un langage violent et sexuellement chargé et interdit complètement certaines catégories de contenu, comme les discussions relatives à l’extrémisme et à l’automutilation.