개인정보위, AI 기업 6곳에 개인정보 취약점 보완 '개선권고'

이인영 기자 | liy@newsprime.co.kr | 2024.03.28 14:00:16

[프라임경제] 대규모 언어모델(LLM) 학습 과정에서 주민등록번호 등 중요한 개인정보가 포함될 수 있어 개선이 필요하다는 조사 결과가 나왔다.

고학수 개인정보보호위원회 위원장. ⓒ 개인정보보호위원회

개인정보보호위원회(이하 개인정보위)는 지난 27일 전체 회의를 열고 LLM을 개발·배포하거나 이를 기반으로 인공지능(AI) 서비스를 제공하는 6개 사업자에 대해 개인정보 보호의 취약점을 보완하도록 개선권고를 의결했다고 28일 밝혔다.

개선권고 조치를 받은 사업자는 △오픈AI △구글 △MS △메타 △네이버 △뤼튼 등 6개 업체다. 개인정보위는 지난해 11월부터 한국인터넷진흥원(KISA)과 함께 주요 AI 서비스를 대상으로 사전 실태점검을 진행한 바 있다.

취약점 점검 결과 개인정보 처리방침 공개, 데이터 전처리, 정보주체의 통제권 보장 등 보호법상 기본적 요건은 대체로 충족했으나, 세부 사항에서 일부 미흡한 점이 발견됐다.

AI 서비스 제공사업자는 인터넷에 공개된 데이터를 수집해 AI 모델 학습데이터로 사용하는데, 이 과정에서 주민등록번호, 신용카드번호 등 중요한 개인정보가 포함될 가능성이 있는 것으로 조사됐다.

실제로 지난해 기준 2만999개 페이지에서 주민번호, 여권번호 등 개인정보 노출이 탐지됐다.

개인정보위에 따르면 오픈AI와 구글, 메타는 개인정보가 집적된 사이트는 AI 모델 학습에서 배제하고 있지만, 학습데이터에서 주민등록번호 등 주요 식별정보를 사전 제거하는 조치가 충분하지 않았다.

또 이들 업체는 AI 모델이 정확한 답변을 하도록 다수의 검토 인력을 투입해 이용자 질문 및 이에 대한 AI 모델의 답변 내용을 직접 열람해 수정하는 방법으로 데이터 세트를 만들고, 이를 서비스 개선에 활용하고 있는 것으로 확인됐다.

그러나 이용자 관점에서는 본인이 입력한 개인정보가 '인적 검토'되는 과정 자체를 알기 어렵기 때문에 기업에서 개인정보 제거 등 조치 없이 해당 정보를 데이터베이스화할 경우 사생활 침해로 이어질 위험이 있다.

개인정보위는 업체들이 AI 모델을 개선할 목적으로 이용자가 입력한 데이터에 대한 인적 검토 과정을 거치는 경우 이용자에게 관련 사실을 명확히 고지하는 한편, 이용자가 입력 데이터를 손쉽게 삭제할 수 있도록 해당 기능에 대한 접근성을 제고하도록 권고했다.

이밖에 LLM 복제 모델 또는 오픈 소스 형태로 배포되는 경우 LLM에 취약점이 발견돼도 후속 조치가 즉시 이뤄지기 어려운 사례도 확인됐다. 아울러 동일 LLM 기반의 AI 서비스라도 사업자에 따라 개인정보 및 아동·민감정보에 대한 답변 등 침해 예방 조치의 정도가 다른 것으로 나타났다.

개인정보위는 AI 서비스와 관련된 내용을 종합해 개인정보 처리방침 등에 더 구체적으로 안내하고, 부적절한 답변에 대한 신고 기능을 반드시 포함하라고 권고했다.

개인정보위 관계자는 "새로운 AI 기술·산업 변화에 맞춰 정보 주체의 개인정보를 안전하게 보호할 수 있도록 지속해서 모니터링하겠다"며 "AI 관련 6대 가이드라인 정책 방향 마련과 개인정보 강화 기술 개발·보급 등 후속 조치도 추진할 계획"이라고 말했다.