💬

Q. 왜 사실과는 다른 대답을 할까요?

ChatGPT와 같은 생성형 언어모델은 정답을 내놓는 것이 아닌, 정답일 확률이 높은 답변을 생성하기 떄문입니다
즉 확률이기에 정답이 아닌 경우도 발생할 수 있다는 것이죠. 그렇다면 그 이유는 무엇일까를 생각해보면 ChatGPT의 재료인 데이터 때문입니다.
ChatGPT는 대부분 웹상에 있는 데이터 (Wikipedia, 블로그 등등)로 학습을 진행하는데, 웹상에는 진실된 정보만 있는 것이 아닙니다. 거짓 정보들도 무수히 많고, 가짜 뉴스도 많죠. 그렇기에 이러한 데이터를 완벽하게 미리 거르고 학습을 진행하면 너무 좋겠지만, 모든 데이터를 검수하기란 쉽지 않습니다. 즉 거짓된 정보가 포함된 데이터도 학습에 같이 활용이 되니 거짓말을 내뱉을 수 밖에 없는 것이죠.
인공지능은 너무나도 진실된 소프트웨어입니다. 가르친대로 내뱉습니다. 즉 잘못된 데이터를 포함하여 학습을 진행해서, 대답은 그럴싸하게 잘하지만 거짓된 정보를 내뱉는 경우가 있는 것이죠. 이것은 업스테이지의 문제가 아닌, 더 나아가 OpenAI만의 문제가 아닙니다. GPT4도 여전히 해당 문제를 한계점으로 내세우고 있습니다. 앞으로 이렇게 거짓정보를 완화하기 위한 다양한 연구들이 진행될 것이기에, 시간이 지나면 완벽히 해결하기는 어렵겠지만, 어느정도 완화는 될 것이라 생각합니다 !
또 다른 이유는 ChatGPT에 학습된 한국어 데이터 양이 1%도 안되는 적은 양이기 때문입니다. ChatGPT가 한국어도 잘하지만, 기본적으로 영어 모델이고 한국어 데이터는 영어에 비해 극소수 데이터 입니다. 이렇게 극소량의 데이터로 학습을 하는 것도 거짓된 정보를 내뱉는 또 다른 이유 중 하나 입니다.