본문으로 건너뛰기

22.09: 2023년 1월 업데이트

2023년 1월 31일 · 약 4분

래블업

지난 9월 Backend.AI 22.09 정식 릴리즈 이후 추가적인 기능 개선 및 버그 수정 사항들이 업데이트되었습니다.

특히 이번 업데이트에서는:

대규모 언어 모델의 분산처리 과정이 훨씬 간단해졌습니다.
스토리지 볼륨 단위로 보다 상세한 폴더 작업 권한을 설정할 수 있게 되었습니다.
초고속 GPU-스토리지 입출력 기능인 GPUDirect Storage를 세계 최초로 컨테이너 기반 클러스터 환경에서 지원합니다!

Backend.AI Core & UI (22.09)

CephFS, IBM SpectrumScale (GPFS) 스토리지 통합 추가
분산처리 세션을 위한 BACKENDAI_CLUSTER_LOCAL_RANK 환경변수 지원 추가
스케줄러의 NUMA 인식 개선 (4개 이상 임의 개수의 NUMA node가 존재하는 경우도 지원)
스토리지 폴더 삭제 시 '삭제 중' 상태 표시 오류 수정
클라이언트 SDK의 .env 파일 인식 오류 수정
호스트 모드 네트워킹 사용 시 분산처리 세션에서 호스트 이름 매핑 순서가 어긋날 수 있는 문제 수정
관리자 패널
- 스토리지 볼륨의 용량 및 사용량 표시 개선
- 리소스 그룹의 호스트 모드 네트워킹 설정 지원
- 스토리지 볼륨 단위의 폴더 관리작업 권한 설정 추가 (예: 폴더 생성이나 삭제를 제한할 수 있음)
- Weka.io 및 IBM SpectrumScale 스토리지에 대한 폴더 단위 용량 제한 설정 개선

Backend.AI Forklift (22.09)

Dockerfile 직접 작성 기능 개선
환경(이미지) 목록에서 레지스트리 주소를 보존하도록 개선
진행 중인 빌드 작업이나 빌드 로그가 없는 경우의 화면 표시 개선
빌드 대상 이미지의 기본 공유메모리(shmem) 권장값을 명시적으로 64MB로 설정
Forklift 서비스 자체의 빌드 및 배포 프로세스 개선

Backend.AI FastTrack (22.09)

YAML 기반 파이프라인 가져오기 및 YAML 직접 편집 기능 추가
Pipeline 편집기에서 자동 레이아웃 기능 추가
배치 작업이 종료된 시간 표시 추가
최대 재시도 횟수를 무제한으로 설정할 수 있도록 허용
배치 작업의 상태별 색상 표시 개선
자동으로 생성되는 파이프라인 이름 규칙 개선

개발 및 연구 프레임워크 지원

Julia 1.8 지원
FluxML 0.14 지원
TensorFlow 2.11 지원
PyTorch 1.14 지원
NGC (NVIDIA GPU Cloud) Tensorflow/PyTorch 22.12 버전 지원
- 참고: PyTorch 이미지의 Python Conda 기반 이미지는 3.8 버전

위에 나열한 것 외에도 많은 버그 수정과 내부적인 개선 사항들이 포함되어 있습니다.
앞으로도 더 많은 기능이 찾아올 예정입니다!

Backend.AI Core & UI (22.09)
Backend.AI Forklift (22.09)
Backend.AI FastTrack (22.09)
개발 및 연구 프레임워크 지원