대규모 언어 모델을 사용하는 인공지능 기반 대화형 챗봇의 편향성 평가 프레임워크 개발 방법
Copyright © 2023 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
초록
본 논문에서는 대규모 언어 모델을 사용하는 인공지능(AI) 기반 챗봇과 인간 사이의 대화 인터랙션 과정에서 발생할 수 있는 편향성을 검사하고 평가하는 것이 가능한 프레임워크 개발 방법에 대해 논의한다. 이를 위해 먼저 대규모 언어 모델을 사용하는 AI 챗봇의 특징과 한계에 대해 알아보고, AI 챗봇과 인간 사이의 대화 인터랙션에서의 편향성 완화에 대한 필요성에 대해 서술한다. AI 챗봇의 편향성 평가를 위해, 편향의 요인들에 대해 살펴보고 편향성 측정을 위해 시스템적으로 구현이 가능한 수학적 개념 모델을 제안한다. 이를 바탕으로 AI 시스템에 구현이 가능한 편향성 평가 프레임워크를 설계하고 샘플 문장들로 이를 검증한다.
Abstract
In this paper, we discuss a method for developing a framework that can examine and assess biases that may occur in the process of conversational interaction between an artificial intelligence (AI)-based chatbot using a large-scale language model (LLM) and a human. To this end, first, the characteristics and limitations of an AI chatbot using a LLM are examined, and the necessity for bias mitigation in conversational interactions between an AI chatbot and a human is described. To assess the bias of the AI chatbot, we examine the factors of bias and propose a mathematical conceptual model that can be systematically implemented to measure bias. Based on this, we design a bias assessment framework that can be implemented in an AI system and verify it with sample sentences.
Keywords:
AI Chatbot, Conversational Interface, Large Language Model, Data Bias, Bias AssessmentⅠ. 서 론
인공지능(Artificial Intelligence: AI)은 임의의 작업을 자동적 혹은 지능적으로 수행하기 위해 인간의 지각, 학습, 추론 등의 능력을 모방하여 구현한 컴퓨터 시스템 혹은 기술이다[1]. 챗봇(Chatbot)은 텍스트나 음성을 통해 자연스러운 대화를 나눌 수 있게 하는 기술로, AI 기술을 이용하여 사용자의 질의를 이해하고 적절한 응답을 생성하도록 할 수 있다. AI 챗봇은 대화형 인터페이스로 활용될 수 있다. 대화형 인터페이스(Conversational Interface)는 사용자와 시스템 사이에 대화 형식의 직관적인 인터랙션을 가능하게 한다. AI 챗봇은 대화형 인터페이스를 통해 사용자의 요구에 즉각적으로 반응하며 고객 맞춤형 서비스, 개인화된 추천, 데이터 분석 등의 작업을 수행할 수 있다.
대규모 언어 모델(Large Language Model: LLM)은 AI 챗봇이 다양한 사용자 질의에 대해 유연하게 답변할 수 있게 한다. LLM은 인간이 사용하는 언어의 패턴과 구조를 이해하기 위해 대량의 텍스트 데이터를 학습시켜 만든 모델로, 입력된 사용자 질의에 대해 답변을 생성하는 과정에서 입력에 대해 가장 높은 가능성을 갖는 다음 단어나 문장 예측에 사용된다[2]. 생성형 사전학습 트랜스포머(Generative Pretrained Transformer: GPT)은 미국의 OpenAI가 2018년에 출시한 LLM의 한 계열이다. GPT는 대화형 챗봇 서비스인 ChatGPT에서 사용된다. GPT-3는 1750억 개의 파라미터를 가지고 있어서 이전의 언어 모델보다 훨씬 더 복잡한 언어 패턴을 학습하고 이해할 수 있었다. 2023년 3월에는 GPT-4가 출시되었다. LLM은 AI 챗봇 서비스뿐만 아니라, 기계 번역, 텍스트 요약, 감성 분석 등에도 활용될 수 있다. 그러나, LLM을 사용하는 AI 챗봇은 훈련용 텍스트 데이터에 있는 편향(Bias)을 그대로 학습하므로 AI 챗봇 서비스는 편향성과 관련된 이슈를 함께 다룰 필요가 있다.
LLM의 편향에 대한 몇 가지 연구가 진행되었다. LLM 모델의 개발 파이프라인에 사회적 편향 테스트를 사용하는 것을 제안한 연구가 있었다[3]. 사회적 편향에 대한 테스트 결과 분석은 포함되지 않았지만 공정한 LLM 개발에 대한 중요성을 강조했다. LLM에 의해 생성되는 텍스트에 대해 사용자의 반응에 대한 편향 조사 연구가 있었다[4]. 해당 연구에서는 사실적 오류가 있는 컴퓨터의 답변이 너무 짧거나 문법적 오류가 포함된 답변보다 사용자에게 더 호의적으로 평가되어 의사결정에 영향을 끼질 수 있는 편향이 있을 수 있음을 발견했다. 아직까지는 시스템에 의해 자동적으로 편향을 개선하기 위한 수학 모델에 대한 연구는 이루어지지 않았다.
메타버스(Metaverse)는 가상과 현실이 융합된 공간에서 사람·사물이 상호작용하며 경제·사회·문화 활동을 하는 것이 가능하게 하는 디지털 세계이다[1]. 메타버스의 한 가상공간에는 특정 조건에서 사전에 정의된 행위의 패턴으로 사용자에게 인터랙션하는 NPC(Non-Player Character)가 존재할 수 있다. NPC는 사용자의 메타버스 콘텐츠 경험을 지원하는 역할을 한다. NPC는 가상공간 내에서 사용자에게 어떤 대상에 대해 설명해주거나, 상점에서 물건을 팔거나, 사용자 플레이어의 행동에 반응하기도 한다. LLM을 사용하는 AI 챗봇 기술이 AI 아바타(AI Avatar)에 적용될 수 있게 됨에 따라 광범위한 주제로 일상적인 대화가 가능하게 되었다. 메타버스에서 AI 아바타는 주어진 역할과 능동성의 정도에 따라 행위자(Actor), 보조자(Assistant), 비플레이어(Non-player), 관찰자(Observer)로 구분해 볼 수 있다[5]. AI 아바타의 대화 인터랙션 범위가 다양해지게 됨에 따라, 이들의 대화 그 자체뿐만 아니라 대화 과정을 통해 편향이 발생할 수 있음도 고려해야 한다.
인공지능 서비스 및 메타버스 서비스에 있어서 AI 챗봇과의 대화 중에 편향성을 완화하는 것은 중요하다. 편향된 챗봇 대화는 사용자에게 잘못된 정보를 제공하거나 특정 그룹에 대한 부정적인 선입견을 강화할 수 있다[6]. AI 챗봇 대화의 편향을 완화하기 위해 여러 가지 방법들이 시도되고 있는데, 챗봇의 훈련용 데이터가 다양한 관점과 사례를 포함하도록 하거나, 챗봇이 편향된 응답을 생성하지 않도록 알고리즘을 수정하는 방법이 있을 수 있다[7]. 그러나, 훈련용 데이터에서 편향성이 있는 대상을 선별하거나 편향된 응답이 발생할 때마다 알고리즘을 수정하는 것은 많은 비용이 소요될 수 있는 일이다.
본 논문에서는 LLM을 사용하는 AI 챗봇의 대화 인터랙션에 대한 편향성 평가 프레임워크 개발 방법에 대해 논의한다. 2장에서는 LLM을 사용하는 AI 챗봇에 대해 알아보고 편향성 완화의 필요성에 대해 언급한다. 3장에서는 AI 챗봇의 편향성 평가 모델에 대해 제시한다. 4장에서는 AI 챗봇의 편향성 평가 프레임워크 개발 방법을 제안하고, 편향성 평가 실험으로 GPT-3.5, GPT-4, Claude2, Bard에 질의응답 결과를 살펴본다. 마지막으로 5장에서는 본 논문을 마무리하며 본 연구의 한계 및 향후 연구 방향에 대해 서술한다.
Ⅱ. 대규모 언어 모델을 사용하는 AI 챗봇의 편향성 완화 필요성
챗봇은 규칙 기반 챗봇과 인공지능(AI) 기반 챗봇으로 구분해볼 수 있다. 챗봇 기술 초기에는 규칙 기반 챗봇으로 구현되었다. 규칙 기반 챗봇은 미리 정의된 규칙에 따라 동작하는데 사용자의 질의가 이 규칙에 해당하면 적절한 응답을 제공할 수 있다. 예를 들어, Siri(Apple社)나 Alexa (Amazon社)의 초기 챗봇 모델은 사용자의 간단한 질문에 응답하거나, 음악을 재생하거나, 날씨 정보를 제공하는 등의 작업을 수행했다. AI 챗봇은 최근에 대규모 언어 모델(LLM)을 사용하여 사용자와의 자연스러운 대화가 가능해졌을 뿐 아니라 광범위한 주제의 대화도 가능해졌다. AI 챗봇을 구현하기 위해서는 자연어처리, 머신러닝/딥러닝 등의 기술이 필요하다. 이 기술들은 사용자의 질의를 맥락에 따라 이해하고 적절한 응답을 생성하는데 이용된다.
AI 챗봇이 LLM을 사용하기 위해서는 대량의 텍스트 데이터가 필요하다[2]. 특정 주제에 대한 효과적인 답변을 위해서는 정제된 텍스트 데이터가 요구된다. AI 챗봇과 자연스러운 대화를 위해서는 다양한 주제와 상황에 대한 정보를 바탕으로 사용자의 질의와 AI 챗봇의 응답으로 구성된 대화셋으로부터 대화의 맥락을 이해하고 사용자 질의에 대한 적절한 응답을 생성하여 대화의 흐름을 관리하기 위한 대화 관리 시스템이 구현되어야 한다.
LLM을 사용하는 AI 챗봇은 규칙 기반 챗봇보다 자연스러운 대화가 가능하지만, 사용자와의 질의응답 과정에서 몇 가지 한계가 있을 수 있다. 첫째, AI 챗봇은 훈련용 데이터로부터 내재된 편향을 갖는 LLM에 의해 편향된 응답을 생성할 수 있다[8]. 예를 들어, 특정 인구 집단에 대한 부정적인 선입견이 챗봇의 응답에 나타날 수 있다. AI 챗봇의 LLM이 인종, 종교, 성별 등에 편견을 가진 데이터로 학습되었다면 챗봇의 응답에 반영되었을 것이기 때문이다[6][9]. 둘째, LLM에 의해 생성된 답변은 종종 사실을 정확하게 반영하지 못하거나 일관성이 없을 수 있다. 최근에는 AI 챗봇이 인터넷에서 정보를 검색하여 답변하기도 하지만, 인터넷에 있는 정보 자체에 대한 신뢰성에 대해서도 고민해야 한다. 셋째, AI 챗봇이 사용자의 질의를 이해하고 적절한 답변을 생성하는 방식은 알고리즘에 의해 결정되는데, 이 알고리즘이 편향을 가진 방식으로 설계되었다면 챗봇의 응답에도 편향이 반영되어 있을 수 있다. 개발자들이 의도하지 않게 자신의 선입견을 AI 챗봇에 반영하는 일이 발생할 수 있다. 넷째, AI 챗봇은 사용자와 대화하며 작업을 수행하기 때문에 대화 인터랙션 과정에서 사용자를 편향(Bias)시킬 수 있다. 대화 자체에서 편향된 정보를 반복적으로 제공하는 경우나 대화를 이어나가는 과정에서 편향을 유도하는 경우 등을 포함한다[10]. 이는 사용자의 편견을 강화하거나 사용자에게 부적절한 행동을 모방하도록 조장할 수 있다[7]. AI 챗봇과 사용자의 대화 인터랙션에서의 편향성이 다른 사용자에게 전이될 가능성도 있다. 조지아 대학교(University of Georgia)의 한 연구에서는 챗봇과의 인터랙션 과정에서 사용자의 인종 편향이 달라질 수 있음을 지적하였다[11]. 해당 연구에 따르면 사용자들은 고객 서비스 상담에 있어서 Black AI라는 대화형 챗봇의 성능이 백인이나 아시아 챗봇보다 더 유능하다고 평가하였는데, 사용자들의 일부는 Black AI를 같은 인종의 인간 상담원과 다르게 인식하기도 했지만, 이는 AI 챗봇을 인간 상담원과 구별할 수 없을 경우에 디지털 공간에서 새로운 편향이 유발될 수 있음을 의미하기도 한다. AI 챗봇의 개발을 위해 AI와 인간의 인터랙션에 따른 그 결과에 대한 이해가 필요하다. 인간과 구별하기 힘든 AI와의 대화 인터랙션 과정은 각각의 사회적, 문화적 배경을 갖는 다양한 사용자들에게 영향을 미치며 그 사용자들은 다른 방식으로 편향성을 경험하게 될 것이기 때문이다. 인간의 의사결정에 따라 AI 시스템은 사회적 영향이 있을 수 있는 추가적인 처리를 진행할 수 있다. 사회·문화적 맥락에서 비롯되는 편향성의 다양한 형태를 이해하기 위한 연구도 필요하다[12].
연구자들은 AI 챗봇에 편향성이 발현되는 메커니즘을 탐구하고 이를 완화하기 위한 방법에 대한 연구를 해오고 있다[13]. 기본적으로 AI 챗봇이 편향된 응답을 생성하는 것을 최소화하기 위해 다양한 관점과 사례를 포함한 대규모의 훈련용 데이터를 확보하여 학습시킬 수 있다[7][14]. 그러나, 대규모의 훈련용 데이터를 정제하기 위해 편향성이 있는 대상을 개별적으로 선별하는 것은 고비용의 작업이다. 다른 방법으로 챗봇이 인종, 종교, 성별, 성적지향, 연령 등에 대해 편향이 있을 경우에 데이터를 학습하지 않도록 알고리즘을 수정할 수 있다. 그러나, 이에 대한 기준이 사회적·문화적 특성뿐 아니라 시대의 흐름에 따라서도 달라질 수 있기 때문에 한 번의 알고리즘 수정으로 해결되기 어렵다. 또 다른 방법으로 편향 완화 필터를 사용해볼 수 있는데, 모든 대화에서 편향을 발견하여 제거 또는 변형하는 데에는 한계가 있을 수 있다. 인공지능 서비스와 메타버스 서비스에서는 대화형 인터페이스를 활용하게 될 가능성이 높다. LLM을 사용하는 AI 챗봇의 편향성 완화를 위해 사회적 변화와 기술적 진보에 따라 대화 인터랙션에서의 편향에 대한 연구를 지속할 필요가 있다.
Ⅲ. AI 챗봇의 편향성 평가 모델
AI 챗봇의 편향성에 대한 평가가 가능해지면 개발자들은 챗봇의 대화 인터랙션에서의 편향 가능성을 최소화하도록 시스템을 설계하고 개발하는 것이 가능해진다. 편향성 평가 모델의 개발은 윤리적 AI 챗봇 개발에 도움이 된다. AI 서비스의 편향성 완화를 위한 기술 전략과 정책 제안에도 활용될 수 있다. AI 편향성 평가 모델은 편향성을 객관적이고 측정 가능한 지표로 변환하여, 알고리즘의 편향을 식별하고 완화하는 데 도움을 줄 수 있다. 모델의 파라미터는 편향성 측정과 분석에 사용되기 때문에, 편향성의 측정 지표로서 어떤 부분에서 어떤 형태의 편향을 받는지를 파악하고 어떤 특징이 편향을 유발하는지를 식별할 수 있게 한다. 이를 통해 알고리즘 개발 단계 혹은 시스템 운영시에 어떤 유형의 조치가 필요한지를 계획할 수 있게 한다.
편향성 평가를 위한 개념 모델을 그림 1에 제시한다. AI 챗봇의 편향성 평가에 대한 체크리스트 방식은 적은 수의 사용자 질의 샘플로 테스트를 할 수밖에 없을 뿐 아니라 평가 테스트 시에 인간의 개입이 필요하여 AI 챗봇 개발에 생산적이지 않다. 이러한 이유에서 AI 챗봇의 편향성 평가를 위한 시스템 구현을 위한 개념 모델이 필요하다. 시스템 구현에 유리하도록 편향 완화 참조 문장(Reference Sentence) 셋을 기준으로 두어 사용자 입력 문장들을 분석하여 편향성을 평가할 수 있다. 편향 완화 참조 문장을 기준으로 편향이 있는 문장을 평가하고 감지할 수 있다. AI 챗봇에 편향성 평가 참조 문장을 제공하면 이를 바탕으로 하여 평균적으로 편향성이 작아서 관용적으로 받아들일 수 있는 문장 표현의 범위를 형성하며 문장을 생성할 수 있다. 문장의 생성은 참고 문장을 기준으로 일정의 분포를 가질 수 있다. 생성된 문장은 벡터 공간에 표현되며 참고 문장까지의 벡터 거리와 함께 관용성의 크기 값을 갖는다. 참고 문장에 유사할수록 편향성이 작기 때문에 임의의 사용자에 대해 관용(Tolerance)의 범위에 있을 가능성이 높게 된다. 편향에 대해 받아들이는 인간의 민감도(Sensitivity)는 인종, 나이, 성별 등에 따라 다를 수 있다. 동일한 문장에 대해서도 인간의 페르소나에 따라 그 반응이 다를 수 있음을 의미한다. 사용자의 민감도가 관용의 크기를 넘어설 경우에 동일한 문장에 대해서도 그 사용자는 편향된 응답에 의해 불쾌감을 느낄 수 있다. 그림 1에서 3명의 사용자가 있다고 가정할 때, User A는 관용의 범위에 있기 때문에 생성된 문장의 편향에 대해 불쾌감을 느끼지 않고 넘어갈 수 있으나, User B는 민감도가 높아 관용의 범위를 넘어서 유사한 문장에 대해서도 불쾌감을 느낄 수 있다. User C는 편향성이 적은 문장 표현의 범위를 넘기 때문에 편향에 대해 감지하고 불쾌감을 느낄 수 있다. 그림 1에 표현한 개념 모델을 바탕으로 변형된 편향성 평가 프레임워크 개발이 가능하다.
그림 1의 편향성 평가 개념 모델은 다양한 수학적 모델 개발을 위한 기반이 될 수 있다. 인종, 나이, 성별의 경우에는 문장 자체만으로도 편향성 평가가 일부 이루어질 수 있으나, 종교나 문화의 경우에는 문장과 맥락을 함께 살펴볼 필요가 있다. 이러한 경우에 개별 문장에 대해서는 그림 1의 개념 모델을 활용할 수 있으며 대화 상태 추적(Dialogue State Tracking) 기술을 참고하여 편향성 상태 추적의 기능을 개발할 수 있다.
Ⅳ. AI 챗봇의 편향성 평가 프레임워크 개발 방법 및 실험
1. 편향성 평가 프레임워크 개발 방법
AI 챗봇의 편향성 평가 프레임워크 개발은 대화형 인터페이스를 갖는 AI 시스템 개발과 발생한 편향을 측정하고 조치하는데 중요한 도구가 될 수 있다. 기본적으로 LLM을 사용하는 AI 챗봇의 경우에 서비스 개발에 이용된 그 언어 모델을 재활용하여 편향성 평가 테스트를 해볼 수 있다.
LLM을 활용한 편향성 검사기에 대한 프레임워크 개념도를 그림 2에 제안한다. AI 챗봇은 다수의 LLM을 연결하여 사용할 수 있다. LLM이 선택된 경우에 AI 챗봇은 그 LLM에 기반하여 사용자 질의에 응답하게 된다. LLM이 편향과 관련된 텍스트 데이터를 학습한 경우에 AI 챗봇은 특정 조건에서 자신의 편향성에 대한 응답을 할 수 있다. 이를 활용하여 편향성에 대한 자체 검증을 시도해볼 수 있다. 편향성 검사는 검사용 테스트 샘플로부터 명령어 입력을 생성하는 검사 프롬프트 생성기(Inspection Prompt Generator)를 이용하거나 사용자가 직접 검사용 프롬프트를 입력하여 AI 챗봇에 질의할 수 있다. LLM을 사용하는 AI 챗봇은 검사용 질의에 대한 응답 결과를 편향성 검사기에 전달하고 편향성 검사기는 이를 분석·평가하고 가시화하여 그 결과를 사용자에게 전달한다.
2. 편향성 평가 실험 및 결과
인간의 대화 범위가 넓은 만큼 다양한 분야에 대해 편향성 평가가 요구되지만, 본 논문에서는 문장에 대한 편향성 평가의 수치화가 가능한지를 확인하는데 집중하기 위하여, 인종, 종교, 성별, 성적지향, 연령 편향성을 실험 분야로 선정하였다.
LLM을 이용한 편향성 평가 실험을 하기 위해 편향성이 있는 문장과 편향성이 없는 문장을 생성하였다. 적절한 프롬프트 엔지니어링 기법을 GPT-4에 적용하여 각 분야별로 5개씩의 편향성 문장그룹과 무편향 문장그룹을 한국어로 임의 생성하였다. 언어 의존성을 확인하기 위하여, 추가적으로 대응되는 영어 문장을 구글 번역기를 적용하여 생성하였다.
- ⦁(Kor) 사용자: 아래의 문장들에 대해서 차별성 지수를 추정하고(0점: 차별성 없음, 100점: 차별성 최대), 문장 번호마다 차별성 지수를 제시하시오. < 10개 문장 (아래 테이블 참고) >
- ⦁(Eng) User: Estimate the bias index for the sentences below (0 points: no bias, 100 points: maximum bias), and present the bias index for each sentence number.< 10 sentences (see table below) >
생성한 문장들에 대해 차별성 지수를 추정하기 위하여 최신 LLM 모델 4종을 적용하였다. 각각의 LLM 모델들에 대해서, 동일한 프롬프트를 입력하였고 LLM 평가 결과를 취합하였다. Appendix I은 각각 LLM별 편향성 결과 이미지를 보인 것이다. 표1~5는 각각 실험 분야별 LLM별 차별성 지수를 정리한 것으로, 10회 반복 실험 결과에 대한 평균과 표준편차를 제시하였다. 또한, 그림3~7는 동일한 실험 결과를 그래프로 표현한 것이다.
편향성 문장그룹과 무편향 문장그룹 간 차별성 지수의 평균 차이가 클수록 편향성 평가의 수치화가 가능함을 의미하며, 하나의 문장에 대한 반복 실험 수행에 따른 차별성 지수의 표준편차가 작을수록 평가 수치의 재현성이 뛰어남을 의미한다고 볼 수 있다.
GPT-4의 한국어 및 영어에 대한 인종 편향성 평가는 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이도 크고, 반복 실험에 대한 표준편차 성능 지표가 우수한 것으로 측정되었다. Claude2 또한 평균 차이도 뚜렷하고, 표준편차도 양호한 것으로 측정되었다. Bard의 경우에는 평균 차이는 뚜렷하나, 평가 수치의 재현성이 부족한 것으로 측정되었다. GPT-3.5인 경우, 영어에 대해서는 GPT-4에 근접하는 성능을 보였으나, 한국어에 대해서는 평가 제시어의 오해석을 수반하여 좋지 않은 성능을 보였다.
GPT-4의 한국어 및 영어에 대한 종교 편향성 평가는 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이가 크고, 반복 실험에 대한 표준편차가 우수한 것으로 측정되었다. Claude2 및 Bard 또한 평균 차이도 뚜렷하고, 표준편차도 양호한 것으로 측정되었다. GPT-3.5인 경우에 영어 및 한국어에 대해서 평가 제시어의 오해석을 수반하여 종교 편향성 평가에서 좋지 않은 성능을 보였다.
GPT-4 및 Claude2의 한국어 및 영어에 대한 성별 편향성 평가는 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이도 크고, 반복 실험에 대한 표준편차가 우수한 것으로 측정되었다. Bard 또한 평균 차이가 뚜렷하고, 표준편차도 비교적 양호한 것으로 측정되었다. GPT-3.5인 경우, 영어에 대해서는 GPT-4에 근접하는 성능을 보였으나, 한국어에 대해서는 평가 제시어의 오해석을 수반하여 좋지 않은 성능을 보였다.
GPT-4 및 Claude2의 한국어 및 영어에 대한 성적지향 편향성 평가는 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이도 크고, 반복 실험에 대한 표준편차가 우수한 것으로 측정되었다. Bard 또한 평균 차이가 뚜렷하였으나, 때때로 재현성이 좋지 않은 결과를 보였다. GPT-3.5인 경우, 영어 및 한국어에 대해서 평가 제시어의 오해석을 수반하여 성능이 좋지 않았는데, 상대적으로 한국어에 취약했다.
GPT-4의 한국어 및 영어에 대한 연령 편향성 평가는 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이도 크고, 반복 실험에 대한 표준편차가 우수한 것으로 측정되었다. Claude2 및 Bard 또한 평균 차이가 뚜렷하고, 표준편차도 비교적 양호한 것으로 측정되었다. GPT-3.5인 경우에 영어 및 특히 연령별 표현의 범위가 다양한 한국어에 대해서 평가 제시어의 오해석을 동반하여 좋지 않은 성능을 보였다.
종합적으로, 실험 영역으로 선정한 인종, 종교, 성별, 성별, 연령 편향성에 관해서, GPT-4 모델은 편향성 문장그룹과 무편향 문장그룹 간 평균의 차이도 크고, 반복 실험에 대한 표준편차도 우수하여 LLM을 활용한 편향성 평가 수치화에 적합한 것으로 판단되었다. 언어 의존성을 확인하기 위한 한국어와 영어 실험에서도 우수한 결과를 보여 주었다.
Claude2 모델 및 Bard 모델 또한 평균 차이도 뚜렷하고, 표준편차도 양호한 것으로 측정되었으며, 추가적인 필터링과 통계적인 처리기법을 사용하고 적절한 프롬프트 엔지니어링 기법을 사용한다면 LLM 활용 편향성 평가 수치화에 활용할 수 있을 것으로 판단되었다.
GPT-3.5인 경우, 영어 및 특히 한국어에 대해서 평가 제시어의 오해석을 수반하여 좋지 않은 성능을 보였다. 평가 제시어에 대한 더 상세한 프롬프트 엔지니어링 기법을 적용하면 평가 결과를 개선할 가능성도 있겠으나, 본 논문의 연구 영역을 벗어나기 때문에 집중적으로 다루지는 않았다.
추가적으로 사회적·문화적 배경이 다른 사용자, 즉, 민감도가 다른 사용자를 가정하여 편향성 평가 테스트를 진행하기 위해서는 사용자 페르소나 입력이 필요하다. 설정된 페르소나 정보에 근거하여 사용자별로 편향에 대한 평가를 진행하는 방법은 추후 도전할 연구과제이다.
Ⅴ. 결 론: 본 연구의 한계 및 향후 연구 방향
본 논문에서는 LLM을 사용하는 AI 챗봇의 편향성 평가 프레임워크 개발 방법에 대해 제안하고 GPT-3.5, GPT-4, Claude2, Bard에 편향성 평가 실험을 진행하였다. 반자동의 혹은 자동의 편향성 평가를 위해서는 검사용 프롬프트 입력 및 평가·제어를 위한 별도의 시스템이 필요하다. 앞서 제시한 편향성 평가를 위한 개념 모델을 확장·변형하여 향후 편향성 제어 알고리즘 개발이 가능하다. 편향성 판단 기준은 사회적·문화적·정치적·시대적 요인 등에 의해 달라질 수 있다. 대화형 인터페이스를 이용하는 AI 서비스나 메타버스 서비스에서 편향성 완화를 위한 연구는 지속적으로 이어질 필요가 있다.
AI 편향성 평가는 메타버스 환경에서 중요한 역할을 수행할 수 있다. 메타버스는 다양한 사용자가 상호작용하고 소통하는 공간에서의 소셜 네트워킹 서비스를 제공할 수 있다. 이러한 환경에 접근하는 사용자들의 다양한 문화적, 인종적 배경은 메타버스 내에서도 영향을 미치게 된다. AI 시스템은 AI 챗봇 혹은 에이전트의 형태로 사용자 간의 상호작용을 조정하고 지원하는 역할을 하며, 이때의 편향성은 이러한 상호작용과 사용자 경험에 영향을 미칠 수 있다. AI 기술이 활용되는 메타버스 환경에서 AI 편향성 평가를 통해 서비스의 어떤 참여자 그룹이 어떤 형태의 편향을 받는지를 분석하는 것은 중요하다. 메타버스 환경에서 사용자들은 AI 기술이 적용되어 자동으로 반응하는 가상의 객체와 상호작용하고 소통할 수 있다. AI 편향성 평가는 편향성을 감지하고 해결함으로써 메타버스에서 활동하는 사용자들의 경험과 만족도를 개선하는 데에도 도움이 될 수 있다.
본 논문에서는 대화 편향성 이슈가 큰 일부 실험 분야에 대해 기계가 생성할 수 있는 편향성 평가의 수치적 표현이 가능한지를 확인하는데 집중하였다. 후속 연구로, 이에 대한 실험 결과를 바탕으로, 편향성 평가를 위한 수학적 모델을 개발할 수 있다. LLM 모델을 개발하거나 혹은 LLM을 활용하여 서비스할 때 편향성을 측정하여 개선하도록 하는데 활용될 수 있으며, 이는 사용자 경험 만족도를 높여 AI 서비스 활용 및 확대에 기여할 수 있다.
References
- J. Bang, “Artificial Intelligence Technology for Expanding Metaverse Services,” KICS: Information and Communications Magazine, Vol. 39, No. 2, pp. 64-73, Jan. 2022. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11032345, (accessed July 1, 2023)
- T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, D. Amodei, “Language Models are Few-Shot Learners,” arXiv:2005.14165v4, , July 22, 2020. (accessed on July 14, 2023)
- Debora Nozza, Federico Bianchi, Dirk Hovy, “Pipelines for Social Bias Testing of Large Language Models,” Association for Computational Linguistics (ACL), Proceedings of BigScience Episode #5, Workshop on Challenges & Perspectives in Creating Large Language Models, pp. 68-74, May 2022. https://aclanthology.org/2022.bigscience-1.6, (accessed Aug. 18, 2023) [https://doi.org/10.18653/v1/2022.bigscience-1.6]
- M. Wu, A. F. Aji, “Style Over Substance: Evaluation Biases for Large Language Models,” arXiv:2307.03025v2, , Aug. 15, 2023. (accessed on Aug. 18, 2023) [https://doi.org/10.48550/arXiv.2307.03025]
- S. E. Kim, J. Bang, “The Possibility of the Extension of Educational Self and the Interaction With AI-Avatar in Metaverse,” Education Principles Research, Vol. 26, No. 2, pp 147-166, Dec. 2021. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11316140, (accessed on July 14, 2023) [https://doi.org/10.19118/edp.2021.26.2.147]
- T. Bolukbasi, K.-W Chang, J. Zou, V. Saligrama, A. Kalai, “Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings,” arXiv:1607.06520, , v1, July 21, 2016. (accessed on July 14, 2023) [https://doi.org/10.48550/arXiv.1607.06520]
- J. H. Park, J. Shin, P. Fung, “Reducing Gender Bias in Abusive Language Detection,” arXiv:1808.07231v1, , Aug. 22, 2018. (accessed on July 14, 2023) [https://doi.org/10.18653/v1/D18-1302]
- M. Brundage, S. Avin, J. Clark, H. Toner, P. Eckersley, B. Garfinkel, A. Dafoe, P. Scharre, T. Zeitzoff, B. Filar, H. Anderson, H. Roff, G. C. Allen, J. Steinhardt, C. Flynn, S. Ó hÉigeartaigh, S. Beard, H. Belfield, S. Farquhar, C. Lyle, R. Crootof, O. Evans, M. Page, J. Bryson, R. Yampolskiy, D. Amodei, “The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation,” arXiv:1802.07228v1, , Feb. 20, 2018. (accessed on July 14, 2023) [https://doi.org/10.48550/arXiv.1802.07228]
- J. Baum, J. Villasenor, “The Politics of AI: ChatGPT and Political Bias,” Web Article, Brookings Institution, May 8, 2023. https://www.brookings.edu/articles/the-politics-of-ai-chatgpt-and-political-bias/, (accessed on July 14, 2023)
- “ChatGPT and Large Language Model Bias,” Web Article, CBS Interactive Inc., March 5, 2023. https://www.cbsnews.com/news/chatgpt-large-language-model-bias-60-minutes-2023-03-05/, (accessed on July 14, 2023)
- E. Techo, “Chatbot Interactions Change Consumers' Racial Biases,” Web Article, University of Georgia, Feb. 24, 2023. https://www.terry.uga.edu/news/stories/2023/chatbot-interactions-change-consumers-racial-biases, (accessed on July 14, 2023)
- A. Caliskan, J. J. Bryson, A. Narayanan, “Semantics Derived Automatically From Language Corpora Contain Human-like Biases,” Science, Vol 356, No. 6334, pp. 183-186, Apr 14, 2017. https://www.science.org/doi/10.1126/science.aal4230, (accessed on Aug. 18, 2023) [https://doi.org/10.1126/science.aal4230]
- H. Beattie, L. Watkins, W. H. Robinson, A. Rubin, S. Watkins, “Measuring and Mitigating Bias in AI-Chatbots,” IEEE International Conference on Assured Autonomy (ICAA), March 22-24, 2022. https://ieeexplore.ieee.org/document/9763613, (accessed on July 14, 2023) [https://doi.org/10.1109/ICAA52185.2022.00023]
- H. Getahun, “ChatGPT Could Be Used for Good, But Like Many Other AI Models, It's Rife With Racist and Discriminatory Bias,” Web Article, INSIDER, Jan. 17, 2023. https://www.insider.com/chatgpt-is-like-many-other-ai-models-rife-with-bias-2023-1, (accessed on July 14, 2023)
Appendix
Appendix I. LLM을 이용한 편향성의 평가 결과
- 2013년 : 광주과학기술원(GIST) 정보통신공학과 공학박사
- 2013년 ~ 현재 : 한국전자통신연구원(ETRI) 디지털융합연구소 책임연구원
- 2016년 ~ 현재 : 과학기술연합대학원대학교(UST) 인공지능학과 교수
- 2022년 ~ 현재 : 한양대학교 과학기술윤리법정책센터 기술전문위원
- 2023년 ~ 현재 : ㈜와이매틱스 대표이사
- ORCID : https://orcid.org/0000-0003-1446-7755
- 주관심분야 : Contextual Computing, AI Ethics, Conversational Bot, Computer Vision, XR
- 2000년 : 한국과학기술원(KAIST) 전기전자공학 공학박사
- 1999년 ~ 2002년 : LG전자 정보통신 책임연구원
- 2003년 ~ 현재 : 한국전자통신연구원(ETRI) 호남권연구센터 책임연구원
- 2023년 ~ 현재 : ㈜와이매틱스 기술이사
- ORCID : https://orcid.org/0000-0003-1372-4561
- 주관심분야 : AI Ethics, multimodal LLM, AIoT, Digital Twin
- 2011년 : 스웨덴왕립공과대학(Royal Institute of Technology) 전자공학 공학박사
- 2011년 ~ 2013년 : University of California, Berkeley. 박사후연구원
- 2013년 ~ 2015년 : 한국전자통신연구원(ETRI) 선임연구원
- 2015년 ~ 2016년 : 경상대학교 조교수
- 2016년 ~ 현재 : 충남대학교 부교수
- ORCID : https://orcid.org/0000-0003-3744-4476
- 주관심분야 : Graph neural networks, Networked robots, Wireless network