大模型 API 能否直接输入 PDF？3 种方案解决 PDF 处理需求

作者注：详解 GPT-4o、Claude、Gemini、DeepSeek 等大模型 API 对 PDF 输入的支持情况，以及文字化提取、图片理解、客户端 3 种处理方案

"大模型 API 能不能直接传 PDF 进去？"这是开发者最常问的问题之一。答案比你想象的复杂——部分模型已原生支持 PDF 输入（Claude、Gemini、GPT-4o），但 DeepSeek 等模型尚不支持，且原生支持的 Token 成本远高于文字化提取方案。

本文将从实际开发角度出发，梳理各主流大模型 API 的 PDF 支持现状，并给出 3 种 PDF 处理方案的完整对比和代码示例，帮你选出最适合自己场景的方式。

核心价值: 读完本文，你将清楚每个大模型对 PDF 的支持程度，并掌握从最省钱到最省事的 3 种处理方案。

大模型 API PDF 输入支持核心要点

要点	说明	价值
3 家已原生支持 PDF	Claude（600 页）、Gemini（1000 页）、GPT-4o（100 页）均已支持	无需预处理，API 直传即可
DeepSeek 等尚不支持	需前置文字化提取或图片转换	需搭建预处理流程
成本差异巨大	原生 PDF 每页 258-3000 tokens，纯文本提取仅 300-1500	大批量场景选对方案可省 10 倍成本
3 种方案各有适用场景	文字化提取、图片理解、客户端处理	按需选择，不必强求一种方案

大模型 API 对 PDF 的原生支持现状

好消息是，2025 年以来主流大模型已陆续支持 API 直传 PDF。它们的实现方式基本一致——提取 PDF 中的文本，同时将每一页渲染为图片，让模型同时理解文字内容和视觉元素（图表、版面布局等）。

坏消息是，这种"文本 + 图片双通道"处理方式的 Token 消耗远高于纯文本输入。一份 50 页的报告如果直接传 PDF，可能消耗 10 万+ tokens，而先提取文本再传入可能只需要 3 万 tokens。

各大模型 API PDF 支持详细对比

模型	是否支持 PDF	最大页数	最大文件	传输方式	每页 Token 成本
Claude	支持（GA）	600 页	32 MB	Base64 / URL / Files API	1500-3000
Gemini	支持	1000 页	2 GB（Files API）	Inline / Files API / URL	~258（最便宜）
GPT-4o	支持	100 页	32 MB	Base64 / File Upload	~765（图片）+ 文本
DeepSeek	不支持	—	—	需预处理	—
Llama / Qwen	不支持	—	—	需预处理	—

🎯 选择建议: 如果你需要大批量处理 PDF，Gemini 的成本最低（每页约 258 tokens，原生文本提取免费）。如果需要最长文档支持，也是 Gemini 最强（1000 页）。Claude 在理解准确度上表现出色，适合高精度场景。这些模型都可以通过 API易 apiyi.com 平台统一接入调用。

大模型 API PDF 处理方案一：文字化提取

这是最通用、成本最低的方案。先用 Python 库将 PDF 提取为 Markdown 或纯文本，再将文本作为 prompt 传给任意大模型 API。

PDF 文字化提取工具对比

工具	速度	最佳场景	特点
PyMuPDF4LLM	~0.14s/文档	通用文本 + 表格提取	速度与质量最佳平衡，输出 Markdown
pdfplumber	中等	表格数据提取	坐标级表格提取，精度高
Marker-PDF	~11s/文档	复杂版面保真转换	结构保留最好，速度较慢
PyPDF2	快	简单纯文本 PDF	轻量级，适合基础文本提取

PDF 文字化提取代码示例

import pymupdf4llm
import openai

# 步骤1: PDF 转 Markdown
md_text = pymupdf4llm.to_markdown("report.pdf")

# 步骤2: 传给大模型 API
client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": f"请总结这份报告的核心要点：\n\n{md_text}"}]
)
print(response.choices[0].message.content)

查看 PDF 带图处理的完整代码（图片理解方案）

import fitz  # PyMuPDF
import base64
import openai

def pdf_pages_to_images(pdf_path, dpi=200):
    """将 PDF 每页转为 Base64 图片"""
    doc = fitz.open(pdf_path)
    images = []
    for page in doc:
        pix = page.get_pixmap(dpi=dpi)
        img_bytes = pix.tobytes("png")
        b64 = base64.b64encode(img_bytes).decode()
        images.append(b64)
    return images

# PDF 转图片
images = pdf_pages_to_images("report.pdf")

# 构建多图消息
content = [{"type": "text", "text": "请分析这份 PDF 文档中的图表和数据："}]
for img_b64 in images[:10]:  # 注意控制页数，避免 Token 超量
    content.append({
        "type": "image_url",
        "image_url": {"url": f"data:image/png;base64,{img_b64}"}
    })

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": content}]
)
print(response.choices[0].message.content)

建议: 文字化提取方案兼容所有大模型（包括 DeepSeek、Llama 等不支持 PDF 的模型），通过 API易 apiyi.com 可以用同一个 API Key 调用任意模型进行测试。

大模型 API PDF 处理方案二：原生 PDF 输入

如果你使用的是 Claude、Gemini 或 GPT-4o，可以直接将 PDF 通过 API 传入，无需任何预处理。

Claude API 原生 PDF 输入示例

import anthropic
import base64

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com"  # Claude 用根域名
)

with open("report.pdf", "rb") as f:
    pdf_data = base64.standard_b64encode(f.read()).decode()

message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=4096,
    messages=[{
        "role": "user",
        "content": [
            {"type": "document", "source": {"type": "base64", "media_type": "application/pdf", "data": pdf_data}},
            {"type": "text", "text": "请总结这份文档的核心要点"}
        ]
    }]
)
print(message.content[0].text)

Gemini API 原生 PDF 输入示例

from google import genai

client = genai.Client(
    api_key="YOUR_API_KEY",
    http_options={"api_version": "v1beta", "base_url": "https://api.apiyi.com"}
)

with open("report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        genai.types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "请总结这份文档的核心要点"
    ]
)
print(response.text)

🎯 成本提醒: 原生 PDF 输入虽然最方便，但 Token 成本显著高于纯文本方案。以一份 50 页 PDF 为例：Gemini 约消耗 12,900 tokens（最便宜），Claude 约 75,000-150,000 tokens，GPT-4o 约 40,000+ tokens。大批量场景务必评估成本，建议通过 API易 apiyi.com 的用量统计功能监控消耗。

大模型 API PDF 处理方案三：客户端处理

对于日常对话场景（非代码开发），使用 AI 客户端是最省事的方式。以 Cherry Studio 为例，它支持直接拖入 PDF 附件，自动完成向量化和语义检索，只将相关片段发送给大模型。

客户端方案优势

零代码: 拖入 PDF 即可开始对话
节省 Token: 通过 RAG 检索只发送相关片段，而非全文
多模型切换: 支持配置 API易等多个 API 平台
本地知识库: 可将多份 PDF 建成知识库，反复查询

使用客户端处理 PDF 的注意事项

控制文件大小: PDF 页数过多会导致向量化时间过长
注意 Token 费用: 虽然 RAG 会压缩内容，但长文档仍可能产生较高费用
选择合适模型: 简单问答可用便宜模型（如 GPT-4o-mini），复杂分析用旗舰模型

建议: 在 Cherry Studio 等客户端中配置 API易 apiyi.com 作为 API 提供商，即可通过一个 Key 访问 Claude、Gemini、GPT 等所有模型。

常见问题

Q1: 用 DeepSeek 处理 PDF 应该用哪种方案？

DeepSeek API 目前不支持直接输入 PDF。推荐使用方案一（文字化提取）：先用 PyMuPDF4LLM 将 PDF 转为 Markdown 文本，再通过 API易 apiyi.com 调用 DeepSeek API 进行分析。如果 PDF 包含图表，可以先将页面转为图片，使用支持 Vision 的模型（如 GPT-4o）进行理解。

Q2: 原生 PDF 输入和文字化提取哪个效果更好？

取决于 PDF 内容。纯文本 PDF（合同、报告）两者效果接近，文字化提取更省钱。包含图表、复杂版面或扫描件的 PDF，原生输入效果明显更好，因为模型能同时理解文字和视觉元素。建议先用文字化方案测试，效果不够再切换原生输入。

Q3: 如何控制 PDF 处理的 Token 费用？

几个实用技巧：

大批量场景优先用 Gemini（每页仅 258 tokens，成本最低）
只提取需要的页面，不要一次传整份文档
文字化提取后先做摘要/分块，避免传入过长文本
通过 API易 apiyi.com 的用量面板监控实际消耗

总结

大模型 API PDF 输入支持的核心要点：

部分模型已原生支持: Claude（600 页）、Gemini（1000 页）、GPT-4o（100 页）可直接传 PDF，DeepSeek 等暂不支持
3 种方案按需选择: 文字化提取成本最低且兼容所有模型，原生输入最方便但贵，客户端处理适合日常对话
成本差异显著: 同一份 PDF，Gemini 原生输入最便宜（~258 tokens/页），纯文本提取方案可再降 50% 以上成本

根据你的场景选对方案，就能高效处理 PDF 而不被高额 Token 费用吓到。

推荐通过 API易 apiyi.com 统一接入各大模型，平台提供免费额度，支持 Claude、Gemini、GPT、DeepSeek 等全部主流模型的 API 调用。

📚 参考资料

OpenAI PDF 输入指南: API 直传 PDF 的官方文档
- 链接: platform.openai.com/docs/guides/pdf-files
- 说明: GPT-4o PDF 输入的详细规格和限制
Claude PDF 支持文档: Anthropic 官方 PDF 处理指南
- 链接: docs.anthropic.com/en/docs/build-with-claude/pdf-support
- 说明: Claude PDF 输入的 3 种方式和最佳实践
Gemini 文档处理: Google 官方文档理解能力说明
- 链接: ai.google.dev/gemini-api/docs/document-processing
- 说明: Gemini PDF 处理的限制和定价
PyMuPDF4LLM 文档: PDF 文字化提取工具
- 链接: pymupdf.readthedocs.io/en/latest/pymupdf4llm
- 说明: 速度最快的 PDF 转 Markdown 工具
API易平台文档: 统一接入各大模型 API
- 链接: docs.apiyi.com
- 说明: API Key 获取、模型列表和调用示例

作者: APIYI 技术团队
技术交流: 欢迎在评论区讨论，更多资料可访问 API易 docs.apiyi.com 文档中心