원문정보
Utility Estimation for Reinforcement Learning from Human Feedback: Integrating Large Language Models and Choice-Based Conjoint Analysis
초록
영어
Large language models (LLMs) have demonstrated their potential as tools for proposing business strategies based on their vast knowledge. However, because they are trained on general text data from the Internet, they face the problem of "strategic hallucination," offering advice that may conflict with the specific preferences of market consumers. This occurs because, while AI possesses linguistic fluency, it does not internalize the empirical data (Ground Truth) that forms the basis of decision-making. To address this issue, this study proposes the "Utility-Grounded RLHF" framework, which combines Choice-Based Conjoint (CBC) analysis—a methodology from marketing— with Reinforcement Learning from Human Feedback (RLHF). This study proposes a model that derives utility vectors for each attribute through choice-based conjoint analysis and builds a novel utility-grounded reward model that accepts these vectors as the conditional inputs. Subsequently, the generative model is optimized using the Proximal Policy Optimization (PPO) algorithm to internalize the evaluation criteria of the reward model. By proposing a grounding method that directly uses empirical consumer data (CBC) as the input for the reward model, this study aims to fundamentally secure reward reliability. From a practical perspective, the significance of this study lies in presenting a concrete methodology for reflecting company-owned data or market research findings directly into an LLM, thereby enabling the construction of a “trustworthy AI consultant who understands our customers” rather than merely an “AI that speaks well.”
한국어
대규모 언어 모델(LLM)은 방대한 지식을 바탕으로 비즈니스 전략을 제안하는 도구로서 가능성을 보여주고 있으나, 인터넷상의 일반적인 텍스트 데이터를 학습한 특성상 시장 소비자의 구체적인 선호와 상충되는 조언을 내놓는 '전략적 환각(Strategic Hallucination)'의 문제를 안고 있다. 이는 AI가 언어적 유창성은 갖추었으나, 의사결 정의 근거가 되는 실증적 데이터(Ground Truth)를 내재화하지 못했기 때문이다. 이를 해결하기 위해, 본 연구는 마케팅 분야 방법 론인 선택 기반 컨조인트(CBC) 분석과 강 화학습(RLHF)을 결합한 '효용 기반 RLHF (Utility-Grounded RLHF)' 프레임워크를 제안한다. 본 연구는 선택 기반 컨조인트 분석을 통해 속성별 효용 벡터를 도출하고, 이를 조건부 입력(Conditional Input)으로 받아들이는 새 로운 구조의 보상 모델(Utility-Aware Reward Model)을 구축하는 모델을 제안한 다. 이후 PPO(Proximal Policy Optimization) 알고리즘을 통해 생성 모델이 해당 보상 모델의 평가 기준을 내재화하도 록 최적화한다. 본 연구는 실증적 소비자 데 이터(CBC) 자체를 보상 모델의 입력으로 사용하는 Grounding 방식을 제안함으로써, 보상 신호의 신뢰성을 근본적으로 확보하고 자 한다. 실무적 시사점으로는, 본 연구가 제안하는 프레임워크를 통해 기업이 보유한 데이터나 시장 조사 결과를 LLM에 직접 반 영함으로써, '말만 잘하는 AI'가 아닌 '우리 고객을 이해하는 신뢰할 수 있는 AI 컨설턴 트'를 구축할 수 있는 구체적인 방법론을 제시했다는 점에 의의가 있다.
목차
INTRODUCTION
Theoretical Framework(Lancaster's Characteristics Theory)
Related work
METHODS
RESULTS AND DISCUSSION
Consumer Preference Modeling: MixedLogit Analysis (Ground Truth Modeling)
Utility-grounded Reward Model
Policy Optimization for Evidence-Based Strategy Generation
Utility grounded RLHF Framework
Conclusion
Limitation and Future Work
초록
사사
REFERENCES
