AI가 사람처럼 '먼저 생각하고 나중에 대답'하기를 원하시나요? Gemini Thinking 모드는 구글이 최근 출시한 심층 추론 기능으로, 모델이 답변을 내놓기 전 전체 사고 과정을 보여주는 기능입니다. 이 글에서는 Cherry Studio와 Chatbox라는 두 가지 주요 AI 클라이언트에서 Gemini Thinking 모드를 올바르게 설정하는 방법을 자세히 소개해 드릴게요.
핵심 가치: 이 글을 읽고 나면 Cherry Studio와 Chatbox에서 Gemini 사고 모드를 활성화하여 모델의 추론 과정을 확인하고, 복잡한 작업의 해결 효율을 높이는 방법을 배우게 됩니다.

Gemini Thinking 모드 핵심 포인트
Gemini Thinking 모드는 구글이 Gemini 2.5 및 3 시리즈 모델에서 도입한 심층 추론 기능입니다. 일반적인 대화와 달리, Thinking 모드는 모델이 최종 답변을 내놓기 전 내부적으로 추론 과정을 거치게 하여 복잡한 작업의 정확도를 눈에 띄게 향상시킵니다.
| 포인트 | 설명 | 가치 |
|---|---|---|
| 사고 시각화 | 모델의 추론 과정을 표시 | AI가 결론에 도달한 방식 이해 |
| 추론 능력 강화 | 다단계 논리 추론 수행 | 복잡한 수학 및 프로그래밍 문제 해결 |
| 사고 깊이 조절 | 사고 토큰 예산 조절 가능 | 속도와 정확도 사이의 균형 유지 |
| 모델 호환성 | Gemini 2.5/3 전체 시리즈 지원 | 상황에 맞는 유연한 선택 가능 |
Gemini Thinking 모드 지원 모델
현재 Thinking 모드를 지원하는 Gemini 모델은 다음과 같습니다.
| 모델명 | 모델 ID | 사고 매개변수 | 기본 동작 |
|---|---|---|---|
| Gemini 3 Pro | gemini-3-pro-preview |
thinking_level | 동적 사고 (HIGH) |
| Gemini 3 Flash | gemini-3-flash-preview |
thinking_level | 동적 사고 (HIGH) |
| Gemini 2.5 Pro | gemini-2.5-pro |
thinking_budget | 동적 (8192 토큰) |
| Gemini 2.5 Flash | gemini-2.5-flash |
thinking_budget | 동적 (-1) |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
thinking_budget | 기본 비활성 (0) |
🎯 기술 팁: 실제 사용 시에는 APIYI(apiyi.com) 플랫폼을 통해 Gemini Thinking 모델을 통합 호출하는 것을 추천합니다. 이 플랫폼은 OpenAI 형식을 지원하는 인터페이스를 제공하여 복잡한 구글 API 인증 절차 없이도 간편하게 사용할 수 있습니다.

Gemini Thinking 모드 API 매개변수 상세 설명
Gemini 모델의 버전에 따라 사용하는 사고 제어 매개변수가 다릅니다.
Gemini 3 시리즈 – thinking_level 매개변수
| 레벨 | 설명 | 적용 사례 |
|---|---|---|
minimal |
최소 사고 | 간단한 문답 |
low |
낮은 수준 사고 | 일상적인 대화 |
medium |
중간 수준 사고 | 일반적인 추론 |
high |
깊은 사고 (기본값) | 복잡한 작업 |
Gemini 2.5 시리즈 – thinking_budget 매개변수
| 수치 | 설명 | 적용 사례 |
|---|---|---|
0 |
사고 비활성화 | 빠른 응답 필요 시 |
-1 |
동적 사고 (추천) | 자동 조절 |
128-32768 |
지정 토큰 수 | 정밀한 제어 필요 시 |
Cherry Studio에서 Gemini Thinking 모드 설정하기
Cherry Studio는 300개 이상의 모델과 다양한 AI 서비스 제공자(Provider)를 지원하는 강력한 AI 클라이언트예요. 아래는 Cherry Studio에서 Gemini Thinking 모드를 설정하는 자세한 단계입니다.
1단계: Gemini API Provider 추가하기
- Cherry Studio를 열고 설정 → 서비스 제공자로 들어갑니다.
- Gemini 또는 사용자 정의 Provider를 찾으세요.
- 다음과 같이 API 설정 정보를 입력합니다.
API 주소: https://api.apiyi.com/v1
API Key: 여러분의 APIYI 키
💡 설정 팁: API 주소로 APIYI(apiyi.com)를 사용하면 더욱 안정적인 접속과 통일된 인터페이스 형식을 이용할 수 있습니다.
2단계: Gemini Thinking 모델 추가하기
하단의 '관리' 또는 '추가' 버튼을 클릭하여 다음 모델들을 수동으로 추가해 주세요.
| 추가할 모델 이름 | 설명 |
|---|---|
gemini-3-pro-preview |
Gemini 3 Pro 사고(Thinking) 버전 |
gemini-3-flash-preview |
Gemini 3 Flash 사고(Thinking) 버전 |
gemini-2.5-pro |
Gemini 2.5 Pro 사고(Thinking) 버전 |
gemini-2.5-flash |
Gemini 2.5 Flash 사고(Thinking) 버전 |
3단계: Thinking Mode 스위치 켜기
채팅 화면에서 다음 과정을 따라 하세요.
- 우측 상단의 설정 아이콘을 클릭합니다.
- Thinking Mode 옵션을 찾습니다.
- 스위치를 ON으로 변경합니다.

Cherry Studio 사용자 정의 파라미터 설정
UI 스위치가 적용되지 않을 경우, 수동으로 사용자 정의 파라미터를 설정해야 합니다.
Gemini 3 모델 사용 시:
{
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "high",
"includeThoughts": true
}
}
}
Gemini 2.5 모델 사용 시:
{
"generationConfig": {
"thinkingConfig": {
"thinkingBudget": -1,
"includeThoughts": true
}
}
}
위의 JSON 설정을 Cherry Studio의 사용자 정의 파라미터 (Custom Parameters) 영역에 붙여넣으세요.
Cherry Studio 전체 설정 방법 상세 보기
상세 설정 단계:
- 모델 설정 열기: 대화창 상단의 모델 이름을 클릭합니다.
- 고급 설정 진입: '사용자 정의 파라미터' 영역까지 스크롤을 내립니다.
- JSON 붙여넣기: 위에서 복사한 해당 모델의 JSON 설정을 붙여넣습니다.
- 저장 및 테스트: 메시지를 보내 사고 과정이 표시되는지 확인합니다.
문제 해결 팁:
- JSON 형식이 올바른지, 불필요한 쉼표가 없는지 확인하세요.
- 모델 이름이 설정과 일치하는지 확인하세요.
- API Key가 유효한지 체크하세요.
🚀 빠른 시작: APIYI(apiyi.com) 플랫폼을 사용해 API Key를 발급받는 것을 추천드려요. Gemini 전 시리즈 모델을 지원하며 설정도 매우 간편합니다.
Chatbox에서 Gemini Thinking 모드 설정하기
Chatbox는 깔끔한 인터페이스와 멀티 플랫폼 지원으로 널리 사랑받는 또 다른 AI 데스크톱 클라이언트예요. Chatbox에서 Gemini Thinking 모드를 설정하는 방법은 다음과 같습니다.
1단계: API Provider 설정하기
- Chatbox를 열고 왼쪽 하단의 설정을 클릭합니다.
- 모델 제공자 → 사용자 정의를 선택합니다.
- API 정보를 설정합니다.
이름: Gemini Thinking
API 유형: OpenAI Compatible
API Host: https://api.apiyi.com
API Key: sk-your-apiyi-key
2단계: Thinking 모델 선택하기
모델 선택기에서 다음 중 하나를 입력하거나 선택하세요.
gemini-3-pro-preview– 가장 강력한 추론 능력gemini-2.5-pro– 성능과 비용의 균형gemini-2.5-flash– 빠른 응답 속도
3단계: 사고 파라미터 설정하기
Chatbox는 Extra Parameters를 통해 사고 모드를 설정할 수 있습니다.
{
"thinking_config": {
"thinking_level": "high"
}
}
또는 thinking_budget을 사용할 수도 있습니다.
{
"thinking_config": {
"thinking_budget": 8192
}
}
Chatbox 사고 과정 표시 설정
Chatbox는 기본적으로 사고 과정을 접어서 표시합니다. 표시 방식을 다음과 같이 조정할 수 있어요.
| 설정 항목 | 역할 | 권장 값 |
|---|---|---|
| 사고 과정 표시 | 생각 내용 펼치기/접기 | 켜짐 |
| 사고 과정 스타일 | 독립 블록/인라인 표시 | 독립 블록 |
| 자동 접기 | 긴 사고 과정 자동 숨기기 | 켜짐 |
Chatbox 설정 코드 예시 보기
# OpenAI SDK를 사용하여 Gemini Thinking 설정하기
import openai
client = openai.OpenAI(
api_key="sk-your-apiyi-key",
base_url="https://api.apiyi.com/v1" # APIYI 통합 인터페이스
)
response = client.chat.completions.create(
model="gemini-2.5-pro",
messages=[
{"role": "user", "content": "왜 1+1=2인지 설명해 줘"}
],
extra_body={
"thinking_config": {
"thinking_budget": 8192,
"include_thoughts": True
}
}
)
# 사고 과정과 답변 출력
print(response.choices[0].message.content)
Gemini Thinking 모드 베스트 프랙티스
시나리오별 사고 깊이 설정
| 사용 시나리오 | 권장 모델 | 사고 설정 | 설명 |
|---|---|---|---|
| 수학 증명 | gemini-3-pro-preview | thinking_level: high | 엄격한 추론 필요 |
| 코드 디버깅 | gemini-2.5-pro | thinking_budget: 16384 | 복잡한 로직 분석 |
| 일상적인 질의응답 | gemini-2.5-flash | thinking_budget: -1 | 동적 자동 적응 |
| 빠른 응답 | gemini-2.5-flash-lite | thinking_budget: 0 | 사고 모드 비활성화 |
| 글쓰기 | gemini-3-flash-preview | thinking_level: medium | 창의성과 효율성의 균형 |
사고 토큰(Thinking Token) 예산 권장 사항
간단한 질문: 0-1024 tokens
일반적인 추론: 1024-4096 tokens
복잡한 작업: 4096-16384 tokens
극한의 추론: 16384-32768 tokens
💡 선택 팁: 어떤 사고 깊이를 선택할지는 주로 작업의 복잡도에 따라 달라집니다. 자신에게 가장 적합한 설정을 찾기 위해 APIYI apiyi.com 플랫폼에서 실제 테스트를 해보시는 것을 추천드려요. 이 플랫폼은 모든 Gemini Thinking 모델을 지원하여 효과를 빠르게 비교해 볼 수 있습니다.

사고(Thinking) 모드 vs 일반 모드 비교
| 비교 항목 | 일반 모드 | 사고(Thinking) 모드 |
|---|---|---|
| 응답 속도 | 빠름 (1-3초) | 비교적 느림 (3-10초) |
| 추론 깊이 | 얕음 | 심층적 다단계 |
| 토큰 소모 | 낮음 | 중간~높음 |
| 정확도 (복잡한 작업) | 60-70% | 85-95% |
| 설명 가능성 | 낮음 | 높음 (사고 과정 확인 가능) |
| 적용 시나리오 | 간단한 질의응답 | 복잡한 추론 작업 |
자주 묻는 질문
Q1: Cherry Studio에서 Thinking Mode 스위치를 켰는데 사고 과정이 표시되지 않나요?
이는 알려진 이슈입니다. 일부 프로바이더의 UI 스위치가 제대로 작동하지 않을 수 있으므로, 이럴 때는 '사용자 정의 매개변수'에 직접 JSON 설정을 추가해야 합니다.
{
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "high",
"includeThoughts": true
}
}
}
includeThoughts를 true로 설정하는 것이 사고 과정을 표시하는 핵심 파라미터입니다. APIYI(apiyi.com) 플랫폼을 통해 호출할 경우, 기본적으로 사고 요약 반환이 활성화되어 있습니다.
Q2: Gemini 2.5와 Gemini 3의 파라미터는 어떤 차이가 있나요?
두 시리즈는 사고 모드를 제어하기 위해 서로 다른 파라미터를 사용합니다.
- Gemini 3 시리즈:
thinkingLevel파라미터를 사용하며, 값은 minimal/low/medium/high 중 하나를 선택합니다. - Gemini 2.5 시리즈:
thinkingBudget파라미터를 사용하며, 값은 0에서 32768 사이의 숫자를 입력합니다.
파라미터를 혼용하면 API 오류가 발생할 수 있습니다. APIYI(apiyi.com) 통합 인터페이스를 통해 호출하면 플랫폼에서 자동으로 파라미터 호환성을 처리해 주므로 편리합니다.
Q3: 사고 모드를 사용하면 토큰 소모량이 얼마나 늘어나나요?
사고(Thinking) 토큰은 별도로 과금됩니다. Gemini 2.5 Pro를 예로 들면 다음과 같습니다.
- 기본 사고 예산: 8,192 tokens
- 최대 사고 예산: 32,768 tokens
실제 소모량은 작업의 복잡도에 따라 달라집니다. 간단한 질문에는 수백 개의 사고 토큰만 사용할 수도 있지만, 복잡한 문제에는 할당된 예산을 모두 사용할 수도 있습니다. thinkingBudget: -1로 설정하면 모델이 자동으로 조절하며, 이는 가성비가 가장 좋은 선택입니다.
Q4: 전체 사고 과정이 아닌 사고 요약만 가져오려면 어떻게 해야 하나요?
API 호출 시 includeThoughts: true를 설정하면 전체 내부 사고 토큰이 아닌 사고 요약을 반환합니다. 요약은 훨씬 간결하여 UI에 표시하기에 적합합니다. 참고로 전체 사고 과정은 현재 외부로 공개되지 않습니다.
Q5: 어떤 작업에 Thinking 모드를 사용하는 것이 가장 좋나요?
Thinking 모드는 여러 단계의 추론이 필요한 작업에 특히 적합합니다.
- 수학적 증명 및 계산
- 코드 디버깅 및 알고리즘 설계
- 논리 추론 및 문제 분석
- 전략 수립 및 의사 결정 분석
단순한 정보 검색, 번역, 요약 등의 작업에는 Thinking 모드를 켤 필요가 없습니다. 오히려 지연 시간과 비용만 늘어날 수 있습니다.
요약
Gemini Thinking 모드는 AI의 추론 능력을 한 단계 더 높여주는 강력한 기능입니다. 본 가이드를 통해 여러분은 다음 내용을 익히셨을 거예요.
- Thinking 모드 원리 이해: thinking_level과 thinking_budget 파라미터의 차이점 파악
- Cherry Studio 설정 방법: UI 스위치 또는 사용자 정의 JSON 파라미터를 통한 사고 모드 활성화
- Chatbox 설정 방법: Extra Parameters를 이용한 사고 파라미터 구성
- 베스트 프랙티스: 작업의 복잡도에 따른 적절한 사고 깊이 선택
Gemini Thinking 모드의 효과를 빠르게 확인해보고 싶다면 APIYI(apiyi.com)를 이용해 보세요. 모든 Gemini 2.5 및 3 시리즈 모델을 지원하며, OpenAI와 호환되는 통합 인터페이스를 제공하여 설정이 훨씬 간편하고 안정적인 접속을 보장합니다.
참고 자료
-
Google Gemini Thinking 공식 문서: 전체 API 파라미터 설명
- 링크:
ai.google.dev/gemini-api/docs/thinking
- 링크:
-
Cherry Studio 공식 문서: 클라이언트 설정 가이드
- 링크:
docs.cherry-ai.com
- 링크:
-
Gemini 모델 리스트: Thinking 기능을 지원하는 모델 목록
- 링크:
ai.google.dev/gemini-api/docs/models
- 링크:
작성자: APIYI Team
기술 지원: Gemini API 획득 또는 기술 문의가 필요하시면 APIYI(apiyi.com)를 방문해 주세요.