Compete in HackAPrompt 2.0, the world's largest AI Red-Teaming competition!

Check it out →
Bienvenue
😃 Bases
💼 Applications de base
🧙‍♂️ Intermédiaire
🤖 Agents
⚖️ Fiabilité
🖼️ Prompting d'images
🔓 Hacking de prompts
🔨 Outillage
💪 Calibrage de prompts
🎲 Divers
📚 Bibliographie
📦 Prompted Products
🛸 Ressources supplémentaires
🔥 Sujets Brûlants
✨ Générique
⚖️ Fiabilité🟢 Introduction

Introduction

🟢 This article is rated easy
Reading Time: 1 minute
Last updated on August 7, 2024

Sander Schulhoff

Ce chapitre couvre comment rendre les complétions plus fiables, ainsi que la manière d'implémenter des contrôles pour assurer la fiabilité des résultats.

Dans une certaine mesure, la plupart des techniques précédemment abordées ont pour but d'améliorer la précision des complétions, et donc leur fiabilité, en particulier l'auto-consistance. Cependant, il existe un certain nombre d'autres techniques qui peuvent être utilisées pour améliorer la fiabilité, au-delà des stratégies de prompting de base.

Les LLM se sont révélés être plus fiables que ce que nous pourrions attendre en interprétant ce qu'un prompt essaie de dire lorsqu'ils répondent à des prompts mal orthographiés, mal formulés ou même activement trompeurs. Malgré cette capacité, ils présentent encore divers problèmes, y compris des hallucinations, des explications erronées avec les méthodes de CoT, et de multiples biais, y compris le biais de l'étiquette majoritaire, le biais de récence et le biais de jeton commun. De plus, le CoT en zero-shot peut être particulièrement biaisé lorsqu'il traite de sujets sensibles.

Parmi les solutions courantes à certains de ces problèmes figurent les calibrateurs pour éliminer les biais a priori, et les vérificateurs pour évaluer les complétions, ainsi que la promotion de la diversité dans les complétions.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Calibrating LLMs

🟢 Prompt Debiasing

🟦 Prompt Ensembling

🟦 LLM Self Evaluation

🟦 Math

Footnotes

  1. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

  2. Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL].

  3. Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. 2

  4. Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models.

  5. Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.