지난 9월 Backend.AI 22.09 정식 릴리즈 이후 추가적인 기능 개선 및 버그 수정 사항들이 업데이트되었습니다.
특히 이번 업데이트에서는:
- 대규모 언어 모델의 분산처리 과정이 훨씬 간단해졌습니다.
- 스토리지 볼륨 단위로 보다 상세한 폴더 작업 권한을 설정할 수 있게 되었습니다.
- 초고속 GPU-스토리지 입출력 기능인 GPUDirect Storage를 세계 최초로 컨테이너 기반 클러스터 환경에서 지원합니다!
Backend.AI Core & UI (22.09)
- CephFS, IBM SpectrumScale (GPFS) 스토리지 통합 추가
- 분산처리 세션을 위한
BACKENDAI_CLUSTER_LOCAL_RANK
환경변수 지원 추가 - 스케줄러의 NUMA 인식 개선 (4개 이상 임의 개수의 NUMA node가 존재하는 경우도 지원)
- 스토리지 폴더 삭제 시 '삭제 중' 상태 표시 오류 수정
- 클라이언트 SDK의
.env
파일 인식 오류 수정 - 호스트 모드 네트워킹 사용 시 분산처리 세션에서 호스트 이름 매핑 순서가 어긋날 수 있는 문제 수정
- 관리자 패널
- 스토리지 볼륨의 용량 및 사용량 표시 개선
- 리소스 그룹의 호스트 모드 네트워킹 설정 지원
- 스토리지 볼륨 단위의 폴더 관리작업 권한 설정 추가 (예: 폴더 생성이나 삭제를 제한할 수 있음)
- Weka.io 및 IBM SpectrumScale 스토리지에 대한 폴더 단위 용량 제한 설정 개선
Backend.AI Forklift (22.09)
- Dockerfile 직접 작성 기능 개선
- 환경(이미지) 목록에서 레지스트리 주소를 보존하도록 개선
- 진행 중인 빌드 작업이나 빌드 로그가 없는 경우의 화면 표시 개선
- 빌드 대상 이미지의 기본 공유메모리(shmem) 권장값을 명시적으로 64MB로 설정
- Forklift 서비스 자체의 빌드 및 배포 프로세스 개선
Backend.AI FastTrack (22.09)
- YAML 기반 파이프라인 가져오기 및 YAML 직접 편집 기능 추가
- Pipeline 편집기에서 자동 레이아웃 기능 추가
- 배치 작업이 종료된 시간 표시 추가
- 최대 재시도 횟수를 무제한으로 설정할 수 있도록 허용
- 배치 작업의 상태별 색상 표시 개선
- 자동으로 생성되는 파이프라인 이름 규칙 개선
개발 및 연구 프레임워크 지원
- Julia 1.8 지원
- FluxML 0.14 지원
- TensorFlow 2.11 지원
- PyTorch 1.14 지원
- NGC (NVIDIA GPU Cloud) Tensorflow/PyTorch 22.12 버전 지원
- 참고: PyTorch 이미지의 Python Conda 기반 이미지는 3.8 버전
위에 나열한 것 외에도 많은 버그 수정과 내부적인 개선 사항들이 포함되어 있습니다.
앞으로도 더 많은 기능이 찾아올 예정입니다!