AI를 만들기 위한 원재료

Posted by 아디노
2023. 9. 18. 07:52 Study

생성 AI 붐이 '데이터를 위한 그림자 전쟁'을 촉발하고 있습니다.
AI 회사들은 모델 훈련을 위해 인터넷에서 스크랩한 정보를 사용했습니다.
콘텐츠 제작자가 자신의 데이터가 자신과 경쟁하는 데 사용되고 있다는 사실을 깨닫고 반발이 커지고 있습니다.


ChatGPT 개발자 Sam Altman은 Corporate America에서 AI 채팅의 물결을 촉발시켰습니다.


인공지능 AI를 만들기 위한 원재료는 어떤 것이 있을까요

생성 AI 붐은 2022년 말 ChatGPT의 놀라운 성공으로 시작되었습니다. 이제 모든 회사가 이 기술을 사용하려고 하는 것 같습니다.

이 기술을 뒷받침하는 AI 모델은 수백만 개의 다양한 소스에서 얻은 고품질 데이터 세트를 사용하여 구축되었습니다.  이는 업계 용어로 모델 "훈련"을 위한 원자재입니다.

전 Github CEO Nat Friedman은 최근 기술 분석가 Ben Thompson과의 인터뷰에서 "이것은 현재 일어나고 있는 일의 표면 바로 아래에 있는 비밀 이야기입니다."라고 말했습니다.

Nvidia GPU는 AI 모델 학습에 필요한 주요 하드웨어입니다.

"그러나 또 다른 핵심 입력은 데이터입니다"라고 Friedman은 말했습니다.  "따라서 현재 표면 아래에서는 가장 큰 AI 연구소가 더 가치 있는 결과를 얻기 위해 막대한 양의 돈을 지출하거나 전문가에게 비용을 지불하거나 라벨링 회사를 통해 작업하는 데이터에 대한 그림자 전쟁이 일어나고 있습니다.  ."

인터넷에서 긁어왔습니다

이 훈련 데이터의 대부분은 인터넷에서 스크랩되어 허가 없이 사용되었습니다.
더 많은 교육 데이터에 굶주린 기술 회사에서는 더 많은 정보를 사용할 수 있는 새로운 권한을 스스로 부여하고 있습니다.

인터넷에서 스크랩한 정보의 사용은 이 새로운 AI 세계에서 저작권 및 라이선스의 미래에 대한 논쟁을 촉발시켰습니다.

무료 정보 공유를 기반으로 한 온라인 커뮤니티도 뒤흔들리고 있다.  해당 데이터가 나중에 당신과 경쟁하게 될 AI 모델에 빨려 들어갈 가능성이 있는데 왜 계속 온라인으로 공유합니까?

인기 있는 코딩 Q&A 웹사이트인 Stack Overflow의 데이터가 AI 모델 훈련에 사용되었습니다.  최근 몇 달 동안 AI 모델이 코딩 답변을 직접 제공하여 사이트를 방문하고 질문할 필요가 없어지면서 트래픽이 감소했습니다.

반발이 거세지고 있다

회사, 콘텐츠 제작자 및 기타 웹 비즈니스는 자신의 작업이 비밀리에 자신에게 불리하게 사용되고 있다는 사실을 깨닫고 있습니다.
이는 웹의 장점을 훼손하고 반발을 촉발하고 있습니다.

Salesforce의 CEO이자 Time 잡지의 소유주인 Marc Benioff는 "미디어 회사들이 깨어나기 시작했고 많은 정보가 도난당했다는 사실을 깨닫기 시작했습니다. 아마도 여러분의 정보 중 일부도 도난당했을 것입니다."라고 말했습니다.

"미디어 소유자로서 이는 큰 문제입니다. 모델을 만나러 타임지에서 자료를 찾아 '잠깐만, 그게 내 콘텐츠야'라고 말하기 때문입니다."라고 그는 덧붙였습니다.

더 많은 웹사이트가 AI 모델 훈련을 위해 데이터를 수집하기 위해 웹을 배회하는 데 사용되는 기술 도구인 웹 크롤러를 차단하고 있습니다.  ChatGPT 제작자 OpenAI의 GPTbot은 단 2주 만에 Amazon 및 Quora를 포함하여 가장 인기 있는 100개 웹사이트 중 15% 이상에서 차단되었다고 Insider는 8월에 보도했습니다.

Reddit은 AI 모델 훈련의 일반적인 소스인 데이터에 대한 비용을 요구하고 있습니다.

최고의 법률 정보 제공업체인 LexisNexis는 AI 모델 및 관련 봇에 데이터를 업로드하거나 공유하지 말라고 고객에게 경고해야 했습니다.

Sarah Silverman은 OpenAI와 Meta가 보상이나 허가 없이 자신의 책을 사용하여 AI 모델을 훈련시켰다고 주장하며 소송을 제기했습니다.

Margaret Atwood와 James Patterson을 포함하여 8,000명 이상의 저자가 허가 없이 AI 훈련에 자신의 작품을 사용한 AI 회사에 보상을 요구하는 공개 서한에 서명했습니다.

법적 위험을 피하기 위한 노력

AI 기업들은 주로 법적 위험을 줄이기 위해 노력하는 방식으로 대응하고 있습니다.

Meta 및 기타 기술 회사는 AI 모델 학습에 사용하는 학습 데이터 공개를 중단했습니다.  이는 부분적으로 경쟁적인 이유도 있지만, 법적 노출을 피하기 위한 목적이기도 하다고 관측자들은 말합니다.

8월에 발표된 연구에 따르면 OpenAI의 챗GPT는 JK Rowling의 Harry Potter 책 시리즈와 같은 저작권 보호 자료에 대해 교육을 받았다는 사실을 숨기려고 노력하고 있습니다.

다른 연구자들은 법적 위험을 줄이기 위해 데이터를 삭제할 수 있는 AI 모델을 개발했습니다.  그 과정에서 그들은 특정 데이터가 AI 모델의 출력에 어떻게 기여하는지 측정하는 방법도 만들었습니다.