Few-shot 프롬프팅: 최신 연구로 밝혀진 진실과 실무 가이드

"정답 예시가 많을수록 좋다"는 통념을 뒤엎는 충격적인 연구 결과와 함께 살펴보는 Few-shot 프롬프팅의 진짜 비밀

Introduction

Few-shot 프롬프팅은 대형 언어 모델(LLM)에게 몇 개의 예시를 제공하여 새로운 작업을 수행하도록 하는 기법입니다. 별도의 모델 훈련 없이도 다양한 태스크를 수행할 수 있어 현재 가장 널리 사용되는 프롬프팅 방법론 중 하나입니다.

Method

Few-shot 프롬프팅을 사용하지 않은 프롬프트:

제주도 여행 계획을 세워줘.

Few-shot 프롬프팅을 사용한 프롬프트:

다음 예시들을 참고해서 제주도 여행 계획을 세워줘.

예시 1:
도시: 부산
일정: 2박 3일
계획: 1일차 - 해운대 해수욕장, 광안리 해변 / 2일차 - 감천문화마을, 태종대 / 3일차 - 자갈치시장, KTX 탑승

예시 2:
도시: 전주
일정: 1박 2일
계획: 1일차 - 한옥마을, 전주비빔밥 / 2일차 - 오목대, 경기전

이제 제주도 3박 4일 여행 계획을 위와 같은 형식으로 만들어줘.

Details

대부분의 사람들이 few-shot 프롬프팅을 사용하려고 할때 가장 중요하다고 생각하는 점은 정확한 예시, 최대한 많은 데이터 이 2가지 입니다. 하지만 이는 사실과 다른부분입니다.

💡 핵심 인사이트

기존 믿음: "정확한 예시를 많이 줘야 성능이 좋아진다"
연구 결과: "형식과 도메인만 명확하면 개별 예시의 정확성은 덜 중요하다"

Few-shot 프롬프팅의 핵심은 완벽한 예시가 아닌 명확한 구조입니다. AI에게 새로운 지식을 가르친다기보다는, 이미 AI 안에 있는 수많은 지식 중에서 "지금 이런 문제 푸는 방식이 필요해!" 하고 힌트를 주거나, 적절한 능력을 '꺼내어 사용하게' 하는 역할을 합니다. LLM에게 모르는 사실을 알려준다기 보단, 잠들어있던 부분을 활성화 시켜준다는 것을 의식하는 것이 더 좋습니다.

🔍 충격적인 연구 결과: "정답이 틀려도 상관없다?"

연구(Min et al.)에서 놀라운 사실이 밝혀졌습니다. GPT-3를 포함한 12개 모델에서 데모 예시의 정답 라벨을 완전히 랜덤하게 바꿔도 성능이 거의 떨어지지 않았습니다.

실험 결과:

분류 작업: 평균 2.6% 성능 감소
다중선택 작업: 평균 1.7% 성능 감소