banner

소식

Jul 19, 2023

Scientific Reports 13권, 기사 번호: 11658(2023) 이 기사 인용

173 액세스

측정항목 세부정보

연합 학습을 사용하면 여러 노드가 로컬 계산을 수행하고 협업하여 노드의 개인 데이터를 중앙 집중화하지 않고도 기계 학습 작업을 완료할 수 있습니다. 그러나 프레임워크에 필요한 빈번한 모델 그라데이션 업로드/다운로드 작업으로 인해 높은 통신 비용이 발생하고, 이는 딥 모델이 확장됨에 따라 연합 학습의 주요 병목 현상이 되어 성능을 저하시킵니다. 본 논문에서는 연합 학습의 통신 비용을 효과적으로 절감하는 2계층 누적 양자화 압축 알고리즘(TLAQC)을 제안한다. TLAQC는 개별 통신 비용과 글로벌 통신 라운드 수를 모두 줄여 이를 달성합니다. TLAQC는 비효율적인 양자화 현상을 완화하고 평균 양자화 오류를 최소화하기 위해 0 값 수정을 사용하는 RQSGD라는 수정된 양자화 방법을 도입합니다. 또한 TLAQC는 적응형 임계값 및 매개변수 자체 검사 메커니즘을 통해 기울기 정보 업로드 빈도를 줄여 통신 비용을 더욱 절감합니다. 또한 경사 지식 손실을 보상하기 위해 양자화 오류와 유지된 가중치 델타를 축적합니다. TLAQC는 양자화 보정과 2계층 축적을 통해 통신 압축으로 인한 정밀도 손실을 크게 줄입니다. 실험 결과에 따르면 RQSGD는 비효율적인 양자화 발생률을 0.003%까지 낮추고 평균 양자화 오류를 1.6 × \({10}^{-5}\)로 줄이는 것으로 나타났습니다. 완전 정밀도 FedAVG와 비교하여 TLAQC는 업로드된 트래픽을 6.73%로 압축하는 동시에 정확도를 1.25% 높입니다.

IoT(사물 인터넷) 및 엣지 컴퓨팅과 같은 신기술의 급속한 발전으로 인해 네트워크 엣지에서 생성되는 데이터의 양이 기하급수적으로 증가하고 있습니다. 상당한 양의 귀중한 데이터가 다양한 터미널 장치에 분산되어 있습니다. 전통적인 딥 러닝 방법에는 일반적으로 훈련 데이터의 중앙 저장이 필요하므로 자연 환경에서 데이터의 중앙 집중식 통합을 달성하는 데 어려움이 있습니다. 이러한 상황은 "데이터 섬"의 형성으로 이어지며 데이터 소스 간에 장벽을 만듭니다. 2016년에 Google은 모바일 기기용으로 특별히 설계된 연합 학습 개념을 도입했습니다. 연합학습1,2은 데이터 섬 문제를 어느 정도 해결하기 위한 솔루션으로 등장했습니다. McMahan et al.3은 딥 러닝 작업을 위한 연합 학습 프레임워크를 설명하고 잘 알려진 FedAVG 알고리즘(Federated Averaging Algorithm)을 제안했습니다. 연합 학습의 주요 측면은 노드 간에 개인 데이터를 공유할 필요가 없어 노드가 로컬에 저장된 데이터에 대한 완전한 제어권을 부여한다는 것입니다. 일반적인 작업자-서버 아키텍처4,5,6,7,8에서 작업자 노드는 로컬 모델 훈련 정보(그라디언트 또는 매개변수 업데이트 등)를 중앙 서버에 업로드합니다. 서버는 작업자 노드에서 업로드된 정보를 활용하여 집계 알고리즘을 사용하여 글로벌 모델을 업데이트합니다.

그러나 연합 학습에서는 우수한 모델 정확도를 달성하기 위해 노드 간에 많은 수의 통신이 필요합니다. 반면, 딥러닝 규모가 지속적으로 증가함에 따라 모델 매개변수의 수가 폭발적으로 증가하여 연합 학습의 통신당 비용이 급격히 증가했습니다. 네트워크 조건 및 대역폭의 제한, 통신 비용의 제한으로 인해 많은 에지 노드가 연합 학습에 참여하지 못합니다. 높은 통신 비용이 연합 학습의 주요 병목 현상이 되었습니다. 연합 학습에서 높은 통신 비용 문제를 해결하기 위해 연구자들은 연합 학습과 분산 기계 학습 모두에서 통신 오버헤드를 줄이기 위한 다양한 통신 압축 방법을 제안했습니다. 이러한 방법은 연합 학습 프로세스의 전반적인 성능을 유지하거나 향상시키면서 의사소통 부담을 완화하는 것을 목표로 합니다.

공유하다