快速开始

创建集群

英博云基于K8S Native架构提供智算服务,算力、存储、网络均以K8S集群作为载体。为了使用英博云的服务,您需要首先创建自己的专属K8S集群。

创建集群的入口位于,英博云控制台:资源管理 -> 集群,点击 创建集群 按钮,在接下来的页面中输入集群名称,点击 确定

集群创建需要几分钟时间,创建成功后状态会更新为 运行中

创建集群示例图

注意:

  • 当前英博云的每个账号,最多可以创建 2 个集群。
  • 若是需要更多集群,请点击:集群总数申请,申请提升集群数量配额。

创建开发机

开发机,也称为ContainerServer,是英博云自研的基于K8S Pod的计算实例。相比传统虚拟机,基于Pod的架构使得开发机具有更好的弹性能力及响应速度。在模型训练、推理、镜像制作等场景,开发机可以更好的满足AI任务的需求。

创建开发机的入口位于,英博云控制台:资源管理 -> 开发机,点击创建开发机,进入创建页面。

在创建页面的基本信息部分,选择具体的集群、命名空间,计费模型选择按量付费,填入开发机名称,如下所示:

开发机基本信息

在创建页面的实例配置部分,需要选择资源类型,镜像。

应对轻量级的AI模型训练,4090/4090D是个不错的选择。这里我们选择资源类型为4090,规格选择bob-eci.4090.5large,即4090单卡。

注意:

  • 也可以替换为4090D,应对试验场景,性能差距不明显。

接下来选择具体镜像,我们选择预置镜像 -> pytorch -> 2.5.1-cuda12.2-python3.10-ubuntu22.04,具体如下所示:

镜像选择

点击确定按钮,等待10秒左右的时间,开发机启动完成后,状态会变为运行中

连接开发机

推荐以下两种连接方式,您可以根据使用习惯选择:

  • 方式一:点击具体开发机的JupyterLab链接,可以直接基于Web Terminal访问开发机。
  • 方式二:通过ssh命令连接开发机,ssh连接的地址,可以点击具体开发机的远程连接按钮进行获取。

这里我们直接使用JupyterLab进行连接,界面如下:

这是一张图片

在JupyterLab的Launcher页,点击Terminal进入终端,界面如下:

这是一张图片

接下来,可以执行nvidia-smi命令,查看GPU卡的具体信息。

创建并挂载共享存储卷

共享存储卷,是具有独立生命周期的存储空间,可以按需挂载到开发机的某个目录,并可以跨多个开发机共享。训练及推理数据,建议放到共享存储卷。

创建共享存储卷

创建共享存储卷的入口位于,英博云控制台:资源管理 -> 存储 -> 共享存储卷,点击创建存储卷,选择具体的集群集群,填入存储卷名称,存储类型选择共享存储(HDD),存储空间填入256GB,点击确定

共享存储卷一般需要数秒钟即可创建完成,创建完成后,状态会变为已就绪,如下所示:

创建存储示例图

挂载到开发机

回到开发机列表页面,点击: 更多 -> 更改实例配置,在接下来的页面中的 存储配置 部分,选择刚刚创建的共享存储卷,并输入挂载路径,这里输入/data就可以,如下所示:

存储配置

开始AI训练及推理

到这里,您已经在英博云成功创建了:集群开发机共享存储卷,接下来可以开始您的AI编程之旅。

以下是几个示例,帮您快速上手:

开始模型训练:基于DeepSeek进行模型微调的例子。

部署推理服务:部署Higgs Audio v2模型,实现在线推理。