인공지능 학습데이터의 저작권 공방
인공지능이 인터넷 정보를 학습해 모든 질문에 대해 척척박사처럼 답변을 내놓는 서비스는 저작권자의 권리를 침해한 것인가? 인공지능 서비스가 늘어나면서 인공지능의 학습 과정에서 사용된 정보에 대한 저작권 침해 문제가 불거지고 있다.
■ 음악·사진·소설·코딩 분야 잇단 소송
오픈에이아이 출신 개발자들이 설립한 인공지능기업 앤스로픽의 챗봇 클로드가 음반사들로부터 저작권 침해 소송을 당했다. 지난 18일 ‘로이터’에 따르면, 유니버셜뮤직·콩코드퍼블리싱 등 글로벌 음반사들은 앤스로픽이 비욘세·롤링스톤 등 유명 가수의 노래 최소 500여곡의 가사를 클로드 학습에 무단으로 사용했다며, 미 테네시 연방법원에 저작권 침해 소송을 제기했다.
소송 내용에 따르면, 클로드는 록뮤지션 버디 홀리의 죽음에 관한 노래를 써달라는 요청을 받으면 돈 매클린이 1971년 그를 추억하며 만든 노래인 ‘아메리칸 파이’ 관련 가사를 제공한다. 유니버셜 등은 클로드가 노래를 허가없이 학습해 챗봇 답변에 이용하는 등 저작권자의 권리를 침해했다고 주장했다.
인공지능 서비스에 대한 저작권 소송은 음악·이미지·출판·코딩 등 각 분야로 계속 늘어나고 있다. 올 1월 미국 최대 이미지서비스 업체인 게티이미지는 인공지능 학습에 자사 이미지를 무단학습했다며 이미지생성 서비스인 스테이블 디퓨전을 개발한 영국의 스태빌리티AI를 상대로 거액의 소송을 제기했다.
지난해 11월 오픈소스 코드공유 플랫폼인 깃허브 이용자들은 마이크로소프트의 인공지능 코딩도구인 코파일럿이 수많은 개발자들이 올려놓은 오픈소스 코드를 무단으로 학습, 활용했다며 미 샌프란시스코 연방법원에 집단소송을 제기한 상태다. 지난 7월 세라 실버먼 등 미국 작가들은 오픈AI와 메타를 상대로 “챗지피티가 출판데이터 세트와 7185권 넘는 책을 불법학습했다”며 저작권 침해 집단소송을 제기했다.
■ 워터마크·봇 차단…다양한 기술 등장
저작권 보호 기술도 다양해지고 있다. 인공지능 콘텐츠를 식별하는 기술과 워터마크를 입히는 방법이 대표적이다. 구글 딥마인드는 지난 8월 클라우드컨퍼런스에서 인공지능 이미지용 워터마크(신스ID)를 공개했다. 일반적인 워터마크와는 달리 눈에 보이지 않아 원본 이미지를 훼손하지 않으며, 인공지능만 식별할 수 있는 투명한 워터마크다. 오픈에이아이도 인공지능이 만든 이미지를 99% 정확도로 식별할 수 있는 기술을 개발중이라고 밝혔다. 정보를 긁어오는 인공지능 봇을 차단하는 기술(Originality.AI)이 개발됐고, 로이터통신·뉴욕타임스·블룸버그 등 언론사들은 인공지능 봇의 정보수집을 차단한다고 밝혔다.
하지만 샘 올트먼 오픈에이아이 최고경영자는 지난 23일 ‘월스트리트저널’ 인터뷰에서 “워터마킹에 대한 의견이 다양하며 모든 콘텐츠에 워터마킹을 적용할 수 있는 것도 아니다”라며 “이미지엔 워터마킹을 할 수 있지만 짧은 텍스트엔 할 수 없을 수 있다”며 워터마크는 ‘흑백논쟁’이 아니라고 말했다.
■ AI 학습 취약점 이용한 ‘독 품은 창작물’
인공지능이 창작자의 허가없이 접근해 정보를 학습할 경우 인공지능 모델의 신뢰도와 정확성이 치명적 손상을 입게 되는, 새로운 저작권 보호 도구도 개발됐다. 지난 23일 ‘엠아이티(MIT) 테크놀로지 리뷰’에 따르면, 시카고대 벤 자오 교수는 예술가가 창작물에 눈에 보이지 않는 ‘디지털 독’을 첨가할 수 있는 ‘나이트셰이드’를 개발했다.
나이트셰이드는 방대한 양의 데이터를 수집해 학습하는 생성 인공지능 모델의 보안 취약점을 이용하는 구조다. 창작자가 작품을 온라인에 공개하면서 나이트셰이드를 이용해 독성 코드를 심으면, 해당 데이터를 수집한 인공지능 모델 안에서 독이 나머지 데이터로 퍼져나가 전체 모델이 오염되는 방식이다. 한번 오염된 데이터는 삭제하기 매우 어렵기 때문에 인공지능 모델은 치명적 손상을 입게 된다. 연구진은 스테이블 디퓨전을 대상으로 테스트한 결과를 공개했다. 개 이미지에 독을 심어 공개한 뒤 이를 학습한 인공지능에게 “개 이미지를 만들라”라고 요구했더니, 팔다리가 많은 괴물같은 생물을 만들어내고 더 많은 독을 주입했더니 고양이를 그려냈다. 저작권 보호 기능과 함께 인공지능 모델을 붕괴시킬 위험성을 안고 있는 기술의 등장이다.
김윤명 디지털정책연구소장은 “저작권법은 사람의 이용을 전제로 만들어졌기 때문에 인공지능의 이용을 저작권 침해로 규정하기 어려운 면이 있다”며 “공정이용과 저작권자의 보상청구권 범위 등에 대한 사회적 합의가 필요하다”고 말했다.
구본권 사람과디지털연구소장 [email protected]
한겨레에서 보기 : https://www.hani.co.kr/arti/economy/it/1114108.html