什么是 MinerU Tianshu
MinerU Tianshu 是一个企业级多 GPU 文档解析服务,适用于 RAG 数据预处理等场景。它结合 SQLite 任务队列 + LitServe GPU 负载均衡,支持将 PDF 等多种格式的文档转换为 Markdown 或 JSON 结构化数据,可以解决文档解析、多 GPU 调度、任务管理等生产环境痛点。 MinerU Tianshu 的核心特性如下:- 高性能架构
- Worker 主动拉取:0.5秒响应速度,无需调度器触发
- 并发安全:原子操作防止任务重复,支持多 Worker 并发
- GPU 负载均衡:LitServe 自动调度,避免显存冲突
- 多 GPU 隔离:每个进程只使用分配的 GPU ,彻底解决多卡占用
- 企业级功能
- 异步处理:客户端立即响应(~ 100 ms),无需等待处理完成
- 任务持久化:SQLite 存储,服务重启任务不丢失
- 优先级队列:重要任务优先处理
- 自动清理:定期清理旧结果文件,保留数据库记录
- 智能解析
- 双解析器:PDF / 图片用 MinerU(GPU加速), Office / HTML 等用 MarkItDown(快速)
- 内容获取:API 自动返回 Markdown 内容,支持图片上传到 MinIO
- RESTful API:支持任何编程语言接入
- 实时查询:随时查看任务进度和状态
运行 MinerU Tianshu
- 进入算力市场页面。
- 单击「选择模板」,找到 MinerU Tianshu ,单击「使用模板」。

- 按照需要,选择计费方式、地区、实例规格等配置。

- 检查磁盘大小,并在环境变量中替换 OSS 信息。

- 确认配置无误后,单击「部署」。
- 进入实例管理页面,查看新创建的实例。等待实例创建成功,状态变为运行中。

- 查看实例日志,确保服务正常启动。

使用 MinerU Tianshu
- 在实例管理页面,单击实例对应的「连接」。
-
在弹出的对话框中,获取 HTTP 服务地址。

-
启动 Web Terminal,然后通过 Web Terminal 远程连接实例。

-
在 Web Terminal 中,切换到
/vllm-workspace/MinerU/projects/mineru_tianshu目录。 -
创建 test_auto_upload_images.py。
test_auto_upload_images.py 的代码示例如下,请将
API_BASE_URL的值替换为实际的 HTTP 服务地址,将LOCAL_PDF_PATH的值和OUTPUT_DIR的值替换为测试的实际路径。 -
运行 test_auto_upload_images.py。
预期返回: