미니 깃허브의 Copilot에 치명적인 문제가 있네여.
- 룬룬
- 조회 수 1726
- 2021.07.25. 20:55
https://meeco.kr/mini/32700127
https://www.youtube.com/watch?v=a9349pRiCRk
저 서비스를 쉽게 설명하면, 깃허브에 공개로 올라간 코드들을 기반으로 학습을 해서 코딩시 코드를 추천해 주는 서비스인데, 이게 문제가 오픈 소스일지라도 GPL라이센스는 공개된 코드를 건들면 안되는데 이것도 저 서비스에 이용이 된다는 겁니다. 그러면 잘못하면 라이센스 위반이죠. 뭐 코드를 아예 새로 만들면 모르겠는데 깃허브 피셜 0.1%는 동일한 코드를 추천한다는데 이중에 GPL 라이센스 코드가 있다면 이건 라이센스 위반이 되는 거죠.
그리고 또한 깃허브는 이 서비스를 과금 받을 예정인데, 과연 오픈소스로 만든 서비스로 과금을 해도 되는건가 하는 문제도 있습니다. 기여 한 사람에게 리워드도 없이죠.
물론 그나마 여기까지는 깃허브 사용시 동의를 한 내용이라 그렇다 치지만, 이 서비스를 VS Code서 이용시 자동으로 작성한 코드를 이 서비스를 위해 사용한다는데, 동의하지 않아도 자동으로 가져가는거니 이것도 문제가 있는거죠.
아직은 저런걸 서비스 하기엔 확실히 넘어야할 과제가 많은거 같습니다.
🥇미게 지박령
댓글
이게 인공지능쪽 윤리/법률쪽 문제랑 좀 많이 꼬여있더라고요. 기술 초기다 보니 법안도 따라가지는 못하는 예시같고요
예를들어 한 작가가 쓴 글을 학습한 모델로 새로운 텍스트를 만들때 생성한 텍스트는 이 작가의 문체를 따르지만 이 작가가 쓰지 않았으니 누가 권리를 가지는지가 애매해지는거도 있었습니다.
이 텍스트를 생성하기 위해 반영된 학습단계에서 만들어진 그래디언트가 어느 범위까지 공정 이용으로 평가 되는지도 애매하죠.
위 코드 같은 경우도 0.1%의 확률로 인간이 짜더라도 완전히 동일한 코드가 나올수는 있는데 인간도 분명 어디선가 코드를 보고 무의식 적으로 비슷하게 쓸수 있었을 것인데 이거에 대해 인공지능 모델만 표절이라고 보기도 애매할수도 있을거같긴하네요. 저작권 법을 잘 몰라서 어떻게 판단될지는 모르겠는데 학습 데이터도 이런 저작권은 조심해서 사용하고 있긴합니다