3단계 Gemini Thinking 모드 설정: Cherry Studio 및 Chatbox 전체 설정 튜토리얼

AI가 사람처럼 '먼저 생각하고 나중에 대답'하기를 원하시나요? Gemini Thinking 모드는 구글이 최근 출시한 심층 추론 기능으로, 모델이 답변을 내놓기 전 전체 사고 과정을 보여주는 기능입니다. 이 글에서는 Cherry Studio와 Chatbox라는 두 가지 주요 AI 클라이언트에서 Gemini Thinking 모드를 올바르게 설정하는 방법을 자세히 소개해 드릴게요.

핵심 가치: 이 글을 읽고 나면 Cherry Studio와 Chatbox에서 Gemini 사고 모드를 활성화하여 모델의 추론 과정을 확인하고, 복잡한 작업의 해결 효율을 높이는 방법을 배우게 됩니다.

Gemini Thinking 모드 핵심 포인트

Gemini Thinking 모드는 구글이 Gemini 2.5 및 3 시리즈 모델에서 도입한 심층 추론 기능입니다. 일반적인 대화와 달리, Thinking 모드는 모델이 최종 답변을 내놓기 전 내부적으로 추론 과정을 거치게 하여 복잡한 작업의 정확도를 눈에 띄게 향상시킵니다.

포인트	설명	가치
사고 시각화	모델의 추론 과정을 표시	AI가 결론에 도달한 방식 이해
추론 능력 강화	다단계 논리 추론 수행	복잡한 수학 및 프로그래밍 문제 해결
사고 깊이 조절	사고 토큰 예산 조절 가능	속도와 정확도 사이의 균형 유지
모델 호환성	Gemini 2.5/3 전체 시리즈 지원	상황에 맞는 유연한 선택 가능

Gemini Thinking 모드 지원 모델

현재 Thinking 모드를 지원하는 Gemini 모델은 다음과 같습니다.

모델명	모델 ID	사고 매개변수	기본 동작
Gemini 3 Pro	`gemini-3-pro-preview`	thinking_level	동적 사고 (HIGH)
Gemini 3 Flash	`gemini-3-flash-preview`	thinking_level	동적 사고 (HIGH)
Gemini 2.5 Pro	`gemini-2.5-pro`	thinking_budget	동적 (8192 토큰)
Gemini 2.5 Flash	`gemini-2.5-flash`	thinking_budget	동적 (-1)
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`	thinking_budget	기본 비활성 (0)

🎯 기술 팁: 실제 사용 시에는 APIYI(apiyi.com) 플랫폼을 통해 Gemini Thinking 모델을 통합 호출하는 것을 추천합니다. 이 플랫폼은 OpenAI 형식을 지원하는 인터페이스를 제공하여 복잡한 구글 API 인증 절차 없이도 간편하게 사용할 수 있습니다.

Gemini Thinking 모드 API 매개변수 상세 설명

Gemini 모델의 버전에 따라 사용하는 사고 제어 매개변수가 다릅니다.

Gemini 3 시리즈 – thinking_level 매개변수

레벨	설명	적용 사례
`minimal`	최소 사고	간단한 문답
`low`	낮은 수준 사고	일상적인 대화
`medium`	중간 수준 사고	일반적인 추론
`high`	깊은 사고 (기본값)	복잡한 작업

Gemini 2.5 시리즈 – thinking_budget 매개변수

수치	설명	적용 사례
`0`	사고 비활성화	빠른 응답 필요 시
`-1`	동적 사고 (추천)	자동 조절
`128-32768`	지정 토큰 수	정밀한 제어 필요 시

Cherry Studio에서 Gemini Thinking 모드 설정하기

Cherry Studio는 300개 이상의 모델과 다양한 AI 서비스 제공자(Provider)를 지원하는 강력한 AI 클라이언트예요. 아래는 Cherry Studio에서 Gemini Thinking 모드를 설정하는 자세한 단계입니다.

1단계: Gemini API Provider 추가하기

Cherry Studio를 열고 설정 → 서비스 제공자로 들어갑니다.
Gemini 또는 사용자 정의 Provider를 찾으세요.
다음과 같이 API 설정 정보를 입력합니다.

API 주소: https://api.apiyi.com/v1
API Key: 여러분의 APIYI 키

💡 설정 팁: API 주소로 APIYI(apiyi.com)를 사용하면 더욱 안정적인 접속과 통일된 인터페이스 형식을 이용할 수 있습니다.

2단계: Gemini Thinking 모델 추가하기

하단의 '관리' 또는 '추가' 버튼을 클릭하여 다음 모델들을 수동으로 추가해 주세요.

추가할 모델 이름	설명
`gemini-3-pro-preview`	Gemini 3 Pro 사고(Thinking) 버전
`gemini-3-flash-preview`	Gemini 3 Flash 사고(Thinking) 버전
`gemini-2.5-pro`	Gemini 2.5 Pro 사고(Thinking) 버전
`gemini-2.5-flash`	Gemini 2.5 Flash 사고(Thinking) 버전

3단계: Thinking Mode 스위치 켜기

채팅 화면에서 다음 과정을 따라 하세요.

우측 상단의 설정 아이콘을 클릭합니다.
Thinking Mode 옵션을 찾습니다.
스위치를 ON으로 변경합니다.

Cherry Studio 사용자 정의 파라미터 설정

UI 스위치가 적용되지 않을 경우, 수동으로 사용자 정의 파라미터를 설정해야 합니다.

Gemini 3 모델 사용 시:

{
  "generationConfig": {
    "thinkingConfig": {
      "thinkingLevel": "high",
      "includeThoughts": true
    }
  }
}

Gemini 2.5 모델 사용 시:

{
  "generationConfig": {
    "thinkingConfig": {
      "thinkingBudget": -1,
      "includeThoughts": true
    }
  }
}

위의 JSON 설정을 Cherry Studio의 사용자 정의 파라미터 (Custom Parameters) 영역에 붙여넣으세요.

Cherry Studio 전체 설정 방법 상세 보기

상세 설정 단계:

모델 설정 열기: 대화창 상단의 모델 이름을 클릭합니다.
고급 설정 진입: '사용자 정의 파라미터' 영역까지 스크롤을 내립니다.
JSON 붙여넣기: 위에서 복사한 해당 모델의 JSON 설정을 붙여넣습니다.
저장 및 테스트: 메시지를 보내 사고 과정이 표시되는지 확인합니다.

문제 해결 팁:

JSON 형식이 올바른지, 불필요한 쉼표가 없는지 확인하세요.
모델 이름이 설정과 일치하는지 확인하세요.
API Key가 유효한지 체크하세요.

🚀 빠른 시작: APIYI(apiyi.com) 플랫폼을 사용해 API Key를 발급받는 것을 추천드려요. Gemini 전 시리즈 모델을 지원하며 설정도 매우 간편합니다.

Chatbox에서 Gemini Thinking 모드 설정하기

Chatbox는 깔끔한 인터페이스와 멀티 플랫폼 지원으로 널리 사랑받는 또 다른 AI 데스크톱 클라이언트예요. Chatbox에서 Gemini Thinking 모드를 설정하는 방법은 다음과 같습니다.

1단계: API Provider 설정하기

Chatbox를 열고 왼쪽 하단의 설정을 클릭합니다.
모델 제공자 → 사용자 정의를 선택합니다.
API 정보를 설정합니다.

이름: Gemini Thinking
API 유형: OpenAI Compatible
API Host: https://api.apiyi.com
API Key: sk-your-apiyi-key

2단계: Thinking 모델 선택하기

모델 선택기에서 다음 중 하나를 입력하거나 선택하세요.

gemini-3-pro-preview – 가장 강력한 추론 능력
gemini-2.5-pro – 성능과 비용의 균형
gemini-2.5-flash – 빠른 응답 속도

3단계: 사고 파라미터 설정하기

Chatbox는 Extra Parameters를 통해 사고 모드를 설정할 수 있습니다.

{
  "thinking_config": {
    "thinking_level": "high"
  }
}

또는 thinking_budget을 사용할 수도 있습니다.

{
  "thinking_config": {
    "thinking_budget": 8192
  }
}

Chatbox 사고 과정 표시 설정

Chatbox는 기본적으로 사고 과정을 접어서 표시합니다. 표시 방식을 다음과 같이 조정할 수 있어요.

설정 항목	역할	권장 값
사고 과정 표시	생각 내용 펼치기/접기	켜짐
사고 과정 스타일	독립 블록/인라인 표시	독립 블록
자동 접기	긴 사고 과정 자동 숨기기	켜짐

Chatbox 설정 코드 예시 보기

# OpenAI SDK를 사용하여 Gemini Thinking 설정하기
import openai

client = openai.OpenAI(
    api_key="sk-your-apiyi-key",
    base_url="https://api.apiyi.com/v1"  # APIYI 통합 인터페이스
)

response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "user", "content": "왜 1+1=2인지 설명해 줘"}
    ],
    extra_body={
        "thinking_config": {
            "thinking_budget": 8192,
            "include_thoughts": True
        }
    }
)

# 사고 과정과 답변 출력
print(response.choices[0].message.content)

Gemini Thinking 모드 베스트 프랙티스

시나리오별 사고 깊이 설정

사용 시나리오	권장 모델	사고 설정	설명
수학 증명	gemini-3-pro-preview	thinking_level: high	엄격한 추론 필요
코드 디버깅	gemini-2.5-pro	thinking_budget: 16384	복잡한 로직 분석
일상적인 질의응답	gemini-2.5-flash	thinking_budget: -1	동적 자동 적응
빠른 응답	gemini-2.5-flash-lite	thinking_budget: 0	사고 모드 비활성화
글쓰기	gemini-3-flash-preview	thinking_level: medium	창의성과 효율성의 균형

사고 토큰(Thinking Token) 예산 권장 사항

간단한 질문: 0-1024 tokens
일반적인 추론: 1024-4096 tokens
복잡한 작업: 4096-16384 tokens
극한의 추론: 16384-32768 tokens

💡 선택 팁: 어떤 사고 깊이를 선택할지는 주로 작업의 복잡도에 따라 달라집니다. 자신에게 가장 적합한 설정을 찾기 위해 APIYI apiyi.com 플랫폼에서 실제 테스트를 해보시는 것을 추천드려요. 이 플랫폼은 모든 Gemini Thinking 모델을 지원하여 효과를 빠르게 비교해 볼 수 있습니다.

사고(Thinking) 모드 vs 일반 모드 비교

비교 항목	일반 모드	사고(Thinking) 모드
응답 속도	빠름 (1-3초)	비교적 느림 (3-10초)
추론 깊이	얕음	심층적 다단계
토큰 소모	낮음	중간~높음
정확도 (복잡한 작업)	60-70%	85-95%
설명 가능성	낮음	높음 (사고 과정 확인 가능)
적용 시나리오	간단한 질의응답	복잡한 추론 작업

자주 묻는 질문

Q1: Cherry Studio에서 Thinking Mode 스위치를 켰는데 사고 과정이 표시되지 않나요?

이는 알려진 이슈입니다. 일부 프로바이더의 UI 스위치가 제대로 작동하지 않을 수 있으므로, 이럴 때는 '사용자 정의 매개변수'에 직접 JSON 설정을 추가해야 합니다.

{
  "generationConfig": {
    "thinkingConfig": {
      "thinkingLevel": "high",
      "includeThoughts": true
    }
  }
}

includeThoughts를 true로 설정하는 것이 사고 과정을 표시하는 핵심 파라미터입니다. APIYI(apiyi.com) 플랫폼을 통해 호출할 경우, 기본적으로 사고 요약 반환이 활성화되어 있습니다.

Q2: Gemini 2.5와 Gemini 3의 파라미터는 어떤 차이가 있나요?

두 시리즈는 사고 모드를 제어하기 위해 서로 다른 파라미터를 사용합니다.

Gemini 3 시리즈: thinkingLevel 파라미터를 사용하며, 값은 minimal/low/medium/high 중 하나를 선택합니다.
Gemini 2.5 시리즈: thinkingBudget 파라미터를 사용하며, 값은 0에서 32768 사이의 숫자를 입력합니다.

파라미터를 혼용하면 API 오류가 발생할 수 있습니다. APIYI(apiyi.com) 통합 인터페이스를 통해 호출하면 플랫폼에서 자동으로 파라미터 호환성을 처리해 주므로 편리합니다.

Q3: 사고 모드를 사용하면 토큰 소모량이 얼마나 늘어나나요?

사고(Thinking) 토큰은 별도로 과금됩니다. Gemini 2.5 Pro를 예로 들면 다음과 같습니다.

기본 사고 예산: 8,192 tokens
최대 사고 예산: 32,768 tokens

실제 소모량은 작업의 복잡도에 따라 달라집니다. 간단한 질문에는 수백 개의 사고 토큰만 사용할 수도 있지만, 복잡한 문제에는 할당된 예산을 모두 사용할 수도 있습니다. thinkingBudget: -1로 설정하면 모델이 자동으로 조절하며, 이는 가성비가 가장 좋은 선택입니다.

Q4: 전체 사고 과정이 아닌 사고 요약만 가져오려면 어떻게 해야 하나요?

API 호출 시 includeThoughts: true를 설정하면 전체 내부 사고 토큰이 아닌 사고 요약을 반환합니다. 요약은 훨씬 간결하여 UI에 표시하기에 적합합니다. 참고로 전체 사고 과정은 현재 외부로 공개되지 않습니다.

Q5: 어떤 작업에 Thinking 모드를 사용하는 것이 가장 좋나요?

Thinking 모드는 여러 단계의 추론이 필요한 작업에 특히 적합합니다.

수학적 증명 및 계산
코드 디버깅 및 알고리즘 설계
논리 추론 및 문제 분석
전략 수립 및 의사 결정 분석

단순한 정보 검색, 번역, 요약 등의 작업에는 Thinking 모드를 켤 필요가 없습니다. 오히려 지연 시간과 비용만 늘어날 수 있습니다.

요약

Gemini Thinking 모드는 AI의 추론 능력을 한 단계 더 높여주는 강력한 기능입니다. 본 가이드를 통해 여러분은 다음 내용을 익히셨을 거예요.

Thinking 모드 원리 이해: thinking_level과 thinking_budget 파라미터의 차이점 파악
Cherry Studio 설정 방법: UI 스위치 또는 사용자 정의 JSON 파라미터를 통한 사고 모드 활성화
Chatbox 설정 방법: Extra Parameters를 이용한 사고 파라미터 구성
베스트 프랙티스: 작업의 복잡도에 따른 적절한 사고 깊이 선택

Gemini Thinking 모드의 효과를 빠르게 확인해보고 싶다면 APIYI(apiyi.com)를 이용해 보세요. 모든 Gemini 2.5 및 3 시리즈 모델을 지원하며, OpenAI와 호환되는 통합 인터페이스를 제공하여 설정이 훨씬 간편하고 안정적인 접속을 보장합니다.

참고 자료

Google Gemini Thinking 공식 문서: 전체 API 파라미터 설명
- 링크: ai.google.dev/gemini-api/docs/thinking
Cherry Studio 공식 문서: 클라이언트 설정 가이드
- 링크: docs.cherry-ai.com
Gemini 모델 리스트: Thinking 기능을 지원하는 모델 목록
- 링크: ai.google.dev/gemini-api/docs/models

작성자: APIYI Team
기술 지원: Gemini API 획득 또는 기술 문의가 필요하시면 APIYI(apiyi.com)를 방문해 주세요.