본문으로 건너뛰기

22.09: 2023년 1월 업데이트

· 약 4분
Lablup

지난 9월 Backend.AI 22.09 정식 릴리즈 이후 추가적인 기능 개선 및 버그 수정 사항들이 업데이트되었습니다.

특히 이번 업데이트에서는:

  • 대규모 언어 모델의 분산처리 과정이 훨씬 간단해졌습니다.
  • 스토리지 볼륨 단위로 보다 상세한 폴더 작업 권한을 설정할 수 있게 되었습니다.
  • 초고속 GPU-스토리지 입출력 기능인 GPUDirect Storage를 세계 최초로 컨테이너 기반 클러스터 환경에서 지원합니다!

Backend.AI Core & UI (22.09)

  • CephFS, IBM SpectrumScale (GPFS) 스토리지 통합 추가
  • 분산처리 세션을 위한 BACKENDAI_CLUSTER_LOCAL_RANK 환경변수 지원 추가
  • 스케줄러의 NUMA 인식 개선 (4개 이상 임의 개수의 NUMA node가 존재하는 경우도 지원)
  • 스토리지 폴더 삭제 시 '삭제 중' 상태 표시 오류 수정
  • 클라이언트 SDK의 .env 파일 인식 오류 수정
  • 호스트 모드 네트워킹 사용 시 분산처리 세션에서 호스트 이름 매핑 순서가 어긋날 수 있는 문제 수정
  • 관리자 패널
    • 스토리지 볼륨의 용량 및 사용량 표시 개선
    • 리소스 그룹의 호스트 모드 네트워킹 설정 지원
    • 스토리지 볼륨 단위의 폴더 관리작업 권한 설정 추가 (예: 폴더 생성이나 삭제를 제한할 수 있음)
    • Weka.io 및 IBM SpectrumScale 스토리지에 대한 폴더 단위 용량 제한 설정 개선

Backend.AI Forklift (22.09)

  • Dockerfile 직접 작성 기능 개선
  • 환경(이미지) 목록에서 레지스트리 주소를 보존하도록 개선
  • 진행 중인 빌드 작업이나 빌드 로그가 없는 경우의 화면 표시 개선
  • 빌드 대상 이미지의 기본 공유메모리(shmem) 권장값을 명시적으로 64MB로 설정
  • Forklift 서비스 자체의 빌드 및 배포 프로세스 개선

Backend.AI FastTrack (22.09)

  • YAML 기반 파이프라인 가져오기 및 YAML 직접 편집 기능 추가
  • Pipeline 편집기에서 자동 레이아웃 기능 추가
  • 배치 작업이 종료된 시간 표시 추가
  • 최대 재시도 횟수를 무제한으로 설정할 수 있도록 허용
  • 배치 작업의 상태별 색상 표시 개선
  • 자동으로 생성되는 파이프라인 이름 규칙 개선

개발 및 연구 프레임워크 지원

  • Julia 1.8 지원
  • FluxML 0.14 지원
  • TensorFlow 2.11 지원
  • PyTorch 1.14 지원
  • NGC (NVIDIA GPU Cloud) Tensorflow/PyTorch 22.12 버전 지원
    • 참고: PyTorch 이미지의 Python Conda 기반 이미지는 3.8 버전

위에 나열한 것 외에도 많은 버그 수정과 내부적인 개선 사항들이 포함되어 있습니다.
앞으로도 더 많은 기능이 찾아올 예정입니다!