가트너 수석 분석가 파르한 초드하리(Farhan Choudhary)

가트너 수석 분석가 파르한 초드하리(Farhan Choudhary)
가트너 수석 분석가 파르한 초드하리(Farhan Choudhary)

[아이티데일리] 연합 머신러닝(Federated Machine Learning)은 데이터 샘플의 교환 없이 로컬 노드(node)에 포함된 여러 로컬 데이터세트에서 머신러닝 알고리즘을 교육하는 것을 목표로 한다. 이는 개인정보를 손상시키지 않으면서 보다 개인화된 경험을 가능하게 한다. 로컬화된 러닝(localized learning)은 IoT 또는 에지 디바이스, 분산형 서버, 데이터 저장소, 혹은 공통 비즈니스 문제 해결을 목표로 하는 연결된 조직 네트워크에서 이뤄질 수 있다. 이 로컬 러닝은 애그리게이터(aggregator) 또는 글로벌 노드와 공유되어 모델을 보다 강력하게 일반화할 수 있다.

연합 머신러닝은 데이터 중앙 집중화의 필요성을 줄이는 동시에 집계를 통해 모델이 더욱 우수한 정확도를 제공할 수 있도록 한다. 이는 또한 적절한 데이터에 액세스할 수 없는 조직에게 이점에 맞는 모델을 안전하게 생성하고 결과물을 공유할 수 있는 기회를 제공한다. 연합 러닝 네트워크를 설정하는 데에는 몇 가지 방법이 있다. 식별 가능한 데이터나 개인 데이터가 아닌, 하위 모델 계수로 작업할 때 개인정보는 사전에 보호된다.

연합 러닝 설정은 협업 또는 P2P(peer-to-peer) 러닝 및 로컬화된 러닝 등 두 가지 유형으로 분류된다.


협업 러닝(또는 P2P 연합 러닝)

이러한 유형의 연합 러닝에서 머신러닝에 대한 공통 목표를 가진 경쟁 또는 비경쟁 단체는 데이터를 공유하는 대신 모델 가중치를 공유하기 위해 컨소시엄을 구성할 수 있다. 이를 통해 모든 단체는 하나의 전문화된 모델이 아닌 동급 최상의 일반화된 모델을 가질 수 있다.

예를 들어 A, B, C라는 세 개의 병원이 각각 X, Y, Z 질병에 대한 전문 데이터를 가지고 있다고 가정해보자. 질병 Y를 가진 환자가 머신 러닝을 사용하여 질병을 감지하는 병원 A로 가는 상황이다. 이 병원은 Y에 대한 데이터를 본 적이 없기 때문에 Y를 예측할 수 없을 것이다. 그러나 이러한 병원이 모델을 교육하기 위한 데이터 대신 모델 가중치를 서로 공유하기 위한 컨소시엄을 구성한다면 모든 당사자는 개인정보를 침해하지 않고 윈윈(win-win)할 수 있는 협력 상태에 들어가게 된다.

위 단계는 다음과 같이 요약할 수 있다.

1. 로컬 데이터세트에 대한 초기 모델 및 교육 동기화

노드는 모델이 없지만 로컬 데이터가 있는 노드와 초기 모델을 동기화한다. 동기화가 완료되면 사용 가능한 로컬 데이터세트의 각 노드에서 학습이 일어난다.

2. 모델 교환

모든 노드 간에 모델 가중치가 교환된다. 모델은 외부 또는 글로벌 단체와 모델을 공유하는 대신 각 노드에서 집계된다.

3. 로컬화된 러닝

기업은 전통적으로 중앙 집중화된 위치에 저장된 데이터에 대해 머신러닝 알고리즘을 교육한다. 예를 들어, 특정 지역에서 운영되는 소규모 소매업체는 모든 데이터를 한 곳에 집계하고, 모델을 구축하거나 이를 여러 번 반복하여 예측 결과를 도출할 수 있다. 만약 동일한 소매업체에 수만 개의 매장이 있다면, 글로벌 모델만으로는 충분하지 않다. 모든 상점에는 상점별로 특화된 머신러닝 모델을 교육하는 데 사용되는 자체 모델 특성을 지닐 수 있다. 이러한 모델은 글로벌 엔드포인트에서 추가로 집계되어 더 넓은 범위를 가질 수 있다.

4. 로컬로 집계된 모델

각 노드는 동급 최상의 모델을 갖게 된다.


로컬화된 러닝

로컬화된 연합 머신 러닝의 절차는 다음의 간단한 단계로 수준 높은 요약이 가능하다.

● 기초 또는 기준 모델은 글로벌 단체 또는 서버 측에서 교육된다.

-기초 모델은 네트워크의 노드 또는 연합 단체에 배포된다.

-기초 모델은 노드에서 사용할 수 있는 사용자 지정 데이터에 따라 교육되므로 노드의 정확도가 향상된다.

● 모델 가중치에 대한 정보와 모델 자체에 대한 변경 사항은 모든 노드에 의해 글로벌 단체와 교환된다.

-글로벌 단체는 연합 평균화(federated averaging), XGBoost, FedProx 및 Fed+와 같은 다양한 기술을 사용하여 모든 정보를 집계하거나 통합한다.

-이 업데이트된 모델은 이제 새로운 기준이 되며 모든 노드와 공유된다.

● 이 절차를 반복함으로써 개별적으로 사용이 불가능했던 다양한 데이터 포인트(data points)에 대한 모델을 생성한다.


이점 및 용도

연합 머신러닝이 주목받는 이유는 다음과 같다.

● 낮은 진입 장벽

스타트업과 중소‧중견기업의 수가 증가하고 있다. 컴퓨팅 기능은 에지 디바이스의 형태로 더 저렴한 가격으로 쉽게 사용할 수 있는데, 해당 기능 수 또한 증가하고 있다. 연합 러닝에서 모든 에지 디바이스는 자체 컴퓨팅 센터로 작동하여 추가 인프라 투자에 대한 필요성을 줄이고 기술 부채를 최소화할 수 있다. 이에, 더 많은 양의 배포가 가능하다.

● 더 높은 수준의 현지화, 정밀도 및 규모

조직이 다양한 환경‧지역에서 주로 지역적 요인에 의해 비즈니스가 다르게 추진된다는 사실을 인식함에 따라 로컬화된 모델이 주목을 받고 있다. 연합 머신러닝을 사용하면 지속적인 학습을 위해 모델을 집계할 필요 없이 분산형 데이터를 사용하여 모델을 지속적으로 개선할 수 있다. 이는 중앙 단계에서 로컬 모델 개선 사항을 공유함으로써 협업 러닝 및 모델 정밀도가 가능해진다. 그런 다음 이런 피드백은 분산형 또는 현지 런타임 환경에 적용될 수 있는 새롭고, 개선된, 그리고 훨씬 더 정확한 공통 모델을 생성하고 확장하는 데 사용된다.

● 보안 및 위험

연합 머신러닝에서 데이터는 집계를 위해 중앙 서버로 전송되지 않기 때문에 데이터 유출의 위험이 줄어든다. 식별 가능한 데이터보다 모델 계수를 사용하는 것도 개인적으로 민감한 정보의 오용 및 유출을 방지한다. 연합 머신 러닝 파이프라인을 더욱 안전하기 만들기 위해 노드, 중앙 서버, 심지어 애플리케이션에도 적용 가능한 여러 방법이 있다.

● 영업 비밀에서 경쟁 우위까지

연합 머신러닝 네트워크를 설정하여 모델을 향상하고, 컴플라이언스를 지원하며, 실행에 참여하는 모든 사람의 개인 설정을 개선할 수 있는 몇 가지 방법이 있다. 때로는 충분하고 대표적인 데이터를 얻기가 어렵거나 불가능한 경우도 있다. 이러한 경우, 교육 데이터가 희박하면 모델을 생성하기 어렵다. 연합 머신러닝은 양질의 데이터를 확보하고 더 나은 모델을 만들기 위한 격차를 해소하는 데 도움을 줄 수 있다. 연합 머신러닝은 또한 환경적으로 지속 가능한 방식으로 모델을 교육하는 데 사용될 수 있으므로 친환경 AI가 가능해진다.

● 규정

조직이 머신러닝 기회를 탐색하지 못하도록 하기 위해 국가 간 데이터 전송에 대한 국제적인 제한이 있다. 연합 설정에서 작동하는 올바른 정책과 절차를 통해 조직은 규정을 안전하게 준수할 수 있을 뿐만 아니라 연합 머신러닝의 더 높은 정확성과 성능의 이점을 누릴 수 있다. 마찬가지로, 연합 머신러닝은 개인 데이터 교환 및 독점 정보, 영업 비밀 또는 기타 기밀 데이터 공유를 금지한다.


위험

연합 머신 러닝에는 많은 이점들이 있지만, 이를 실행함에 있어서 다음과 같은 위험도 따른다.

● 익명화된 데이터세트에 개별적으로 가공되지 않은 순정 형태로 존재하는 연합 머신 러닝은 한 사용자의 데이터가 다른 사용자의 데이터와 결합될 경우 여전히 사용자의 개인정보를 위험에 빠뜨릴 수 있다.

● 협업 형태의 연합 머신 러닝을 설정하려면 조직들이 서로를 신뢰하고 위험 노출을 최소화하기 위해 필요한 가드레일을 만들어야 한다.

● 차등 프라이버시, 고급 융합 알고리즘 및 동형 암호 등, 연합 설정에 통합해야 하는 개인정보 강화에 대한 여러 고려사항들이 있다.

● 연합 머신러닝 설정에서 악의적인 요소들은 매개 변수와 모델이 데이터와 상호 작용하는 방식을 변경하기 위해 파이프라인을 조작할 수 있다.

● 조직 내 또는 동료 간의 신뢰 문제와 같은 문화적 저항은 특히 협업 러닝이 실험되는 경우 AI 이니셔티브의 성장을 늦출 수 있다. 일부 최종 사용자 간의 토론에서는 중앙 기관 또는 집계 기관의 거버넌스와 관련된 위험이 큰 도전 과제로 강조되었다. 이에, 종종 누가 그 중심 기구의 역할을 할 것인지 합의하는 데 어려움이 따른다.


대안

고려가 가능한 기타 개인정보 강화 기술은 다음과 같다.

● 합성 데이터

이는 인위적으로 생성된 데이터 유형이다. 즉 현실 세계를 직접 관찰하여 얻은 데이터는 아니다.

● 차등 개인정보 보호

이는 시간이 지남에 따라 더 많은 트렌드 분석을 가능하게 한다. 합성 데이터가 새로운 정적 데이터세트를 재생산하는 경우, 차등 개인정보는 기본 데이터를 변경하지 않는다. 대신 개인정보를 보호하기 위한 변경은 해당 출처의 데이터와 데이터 과학자의 문의에 대한 최종 답변 사이에서 이루어진다. 본질적으로 차등 개인정보는 데이터세트의 개인에 대한 특정 정보 요소를 보류하거나 왜곡하면서 정보에 대한 액세스를 허용한다.

● 보안 다자간 컴퓨팅(sMPC)

이는 데이터 또는 암호화 키를 보호 상태로 유지하면서 조직, 애플리케이션, 개인 또는 디바이스와 같은 각 개체가 데이터 작업을 할 수 있도록 하는 분산형 컴퓨팅 및 암호화의 사용과 관련된다. 특히 sMPC는 여러 개체가 사용 중인 데이터를 보호하여 인사이트를 공유할 수 있게 한다.

● 동형 암호화

이는 암호화된 데이터에 대한 컴퓨팅을 가능하게 하는 암호화 알고리즘 세트다.


제언

AI 및 머신러닝 이니셔티브를 담당하는 데이터 및 분석 리더들은 다음을 수행해야 한다.

- 연합 머신러닝의 다양한 유형, 연합 머신러닝이 사용될 수 있는 시나리오 및 전반적인 머신 러닝 이니셔티브 추진 방법을 평가해야 한다.

- 연합 머신러닝을 사용하여 머신러닝 일반화를 촉진하고 협업 기회를 창출할 수 있는 사용 사례를 발견해야 한다.

- 개념 실증(POC)을 수행하여 정확성 및 정밀도와 같은 성과 지표 및 연합 머신러닝이 활용될 수 있는 조직과 관련된 기타 지표를 측정해야 한다.

- 개인정보 필터를 제공하면서 연합 네트워크를 생성하는 데 도움이 될 수 있는 공급업체를 선택해야 한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지