巴别鸟巴别鸟文档

高可用部署

高可用部署面向金融、医疗、能源、大型制造、集团企业、跨地域办公和对业务连续性要求较高的场景。目标不是简单“多买几台服务器”,而是让业务入口、应用服务、数据库、搜索、缓存、转码、对象存储、备份和网络链路都尽量避免单点故障,并在故障后可恢复、可切换、可追踪。

高可用主备拓扑
主备或双活部署可降低单台业务服务器故障对访问入口的影响。

适用场景

场景 典型要求
核心业务文件平台 文件上传、下载、预览、审批、分享和搜索不能长时间中断
多地办公 不同地区用户需要稳定访问同一套文件平台
高合规行业 需要更完整的备份、审计、权限、安全策略和灾备设计
大容量素材/图纸/视频 存储容量持续增长,需要对象存储和扩容规划
AI 知识库私有化 除文档网盘外,还需要向量索引、OCR、GPU 或模型服务

架构分层

高可用部署应按服务层拆解,不建议只把所有服务堆在一台更大的服务器上。

层级 建议设计
访问入口 使用负载均衡、反向代理、双网卡、双线路或云负载均衡承载 HTTPS 入口
应用服务 至少准备主业务与备用业务节点;中大型场景可部署多副本应用服务
数据库 使用主从、主备或数据库集群;定期验证备份可恢复性
搜索服务 文件全文检索和高级搜索可独立部署,较大规模建议集群化
缓存与队列 Redis、任务队列和异步处理服务应纳入监控和恢复策略
转码与预览 Office、CAD、视频、图片转码可独立部署,按文件类型和并发量扩展
对象存储 使用单机对象存储、主备对象存储或分布式对象存储承载文件本体
备份灾备 数据库、对象存储、配置和索引应有本地备份、异地备份或灾备方案

推荐部署形态

规模 推荐形态 说明
100-1000 用户 双应用、双数据库、独立搜索、可选转码、S3/OBS 或共享存储 兼顾成本和可用性,适合对中断敏感但规模不大的企业
1000-5000 用户标准高可用 主备业务服务器、主备数据库、独立搜索、独立转码、对象存储 适合多数中大型私有化客户,可按容量增加存储服务器
1000-5000 用户 K8S 应用 3-5 副本、数据库主从、搜索集群、Redis 集群、S3 对象存储 适合已有容器平台和运维团队的企业
1000-5000 用户 + AI 在高可用文档平台外增加 AI/OCR/向量服务器 AI 算力可接入外部算力平台,也可使用私有 GPU 服务器
1W-5W 用户 更高规格主备业务、主备数据库、搜索服务、转码服务和独立存储 需要结合并发、地域、带宽、文件量和 AI 规模专项评估

服务器角色建议

以下为常见高可用角色拆分。实际规格需要根据用户数、并发、文件数量、存储容量、预览转码量、AI 模块和网络条件评估。

角色 建议配置参考 说明
主业务服务器 16 核 CPU、64GB 内存、500GB SSD 系统盘 承载 Web、业务接口和主要应用服务
从业务服务器 16 核 CPU、64GB 内存、500GB SSD 系统盘 作为主备、双活或应用副本节点
主数据库服务器 8 核 CPU、32GB 内存、500GB SSD 系统盘 负责业务数据写入和事务处理
从数据库服务器 8 核 CPU、32GB 内存、500GB SSD 系统盘 用于主从、备份和故障恢复
搜索服务器 8 核 CPU、32GB 内存、1TB SSD 系统盘 承载全文索引、OCR 文本和高级搜索
转码服务器 8 核 CPU、16GB 内存、200GB 系统盘 负责 Office、CAD、图片、视频等预览转换
对象存储服务器 16 核 CPU、64GB 内存、500GB SSD 系统盘 + 数据盘 承载文件本体,支持 S3、NFS 或分布式对象存储
AI/OCR 服务器 8-32 核 CPU、32-128GB 内存、GPU 视模型而定 用于私有化 OCR、向量、知识库和模型推理

K8S 高可用

已有容器平台的企业可以采用 K8S 部署。K8S 更适合具备容器运维能力、统一监控、日志、Ingress、StorageClass 和镜像仓库的团队。它的优势是应用副本更容易扩展,资源配额更清晰,滚动升级和故障迁移能力更强。

Workload 建议副本 资源参考
应用服务 3-5 副本 每副本 4-8 核 CPU、16-32GB 内存
数据库 2 副本或外部数据库 主从/主备,建议 SSD 存储
搜索引擎 3 节点集群 每节点 4-8 核 CPU、16-32GB 内存,使用 SSD
Redis 缓存 3 节点 按并发和任务量配置内存
对象存储 使用 S3/OBS/OSD 文件本体建议使用独立对象存储,不放在应用 Pod 内

对象存储与文件高可用

文件本体的高可用通常比应用服务更关键,因为业务服务器可以重建,文件数据不能丢失。巴别鸟支持 S3 兼容对象存储、云对象存储、NFS、虚拟机挂载盘和自建对象存储。对高可用部署,建议优先采用对象存储。

分布式对象存储纠删码示意
对象存储可通过多节点、校验和纠删码降低硬盘或节点故障造成的数据风险。

设计时需要确认:

  • 可用容量和原始容量的比例,取决于纠删码或冗余策略。
  • 存储节点数量、单节点硬盘数量、硬盘容量和未来扩容颗粒度。
  • 对象存储与业务服务器之间的网络带宽、延迟和内网隔离策略。
  • 是否需要主备对象存储、异地同步或对象存储自身的灾备能力。
  • 是否已有企业级 S3 存储、云 OBS/OSS/COS 或超融合存储可对接。

对象存储的容量、纠删码、空间利用率和硬件准备,请查看对象存储与纠删码

备份与灾备

高可用解决的是“故障时尽量不中断”,备份和灾备解决的是“数据可恢复”。两者不能互相替代。即使采用主备或集群,也必须保留独立备份策略。

异地灾备网络拓扑
异地灾备适合把数据库、对象存储和关键配置备份到备用场所。
数据类型 建议
数据库 定期全量备份、增量备份和恢复演练
对象存储 使用对象存储同步、备份服务器或第三方备份系统
搜索索引 可从文件和数据库重建,但应评估重建时间
配置与证书 域名证书、系统配置、授权文件、通知邮箱和集成配置应备份
日志与审计 根据合规要求留存访问日志、操作日志和安全审计日志

海外与跨地域部署注意事项

  • 优先选择接近主要用户的云区域、机房或对象存储区域。
  • 需要公网访问时,评估国际带宽、CDN、DNS、证书和跨境链路稳定性。
  • 使用云对象存储时,确认对象存储与业务服务器在同一区域或内网互通。
  • 跨地域灾备应确认专线、VPN 或云网络质量,避免同步长期积压。
  • 第三方 SSO、邮件、短信、AI API 或授权服务如果在境外访问,需要提前验证网络连通性。

上线前检查

  1. 验证主业务服务器故障时,访问入口能否切换到备用节点。
  2. 验证数据库主从、备份和恢复流程,不只检查备份文件是否存在。
  3. 验证对象存储节点、硬盘或网络异常时的读写表现。
  4. 验证搜索、预览、转码、OCR、AI 和自动化任务的队列恢复能力。
  5. 验证证书、域名、负载均衡、反向代理和内外网访问策略。
  6. 验证备份数据能在隔离环境中恢复出可用系统。
  7. 建立监控告警:CPU、内存、磁盘、对象存储、数据库、搜索、队列、证书有效期和备份结果。
巴别鸟企业网盘文档内容会随产品版本、授权模块和部署配置更新;具体能力以实际部署与管理员配置为准。