원문정보
초록
한국어
본 연구에서는 멀티모달 AI 기술을 활용하여 사용자가 특정 목적지로 이동하는 목적을 달성하기 위해, 다수의 택시 어플리케이션을 호출 및 취소하는 과정을 자동화하는 에이전트 시스템인, Taxi Call Agent를 개발하였다. 이 시스템은 각 어플리케이션의 화면을 캡처하고, UI Automator를 활용하여 화면의 UI 요소를 저장한 뒤 이를 프롬프트와 함께 GPT-4o API로 전송하여 각 어플리케이션에서 필요한 행동을 수신하도록 설계되어 사용자가 입력한 한 문장으로 택시 호출을 가능하게 한다. 현재까지 구현한 Taxi Call Agent는 다음의 두 가지 주요 기능에 초점을 맞추고 있다: 1. 다중 택시 어플리케이션 관리: 시스템은 여러 택시 어플리케이션을 동시에 관리하고, 각 어플리케이션의 화면을 캡처하여 UI 요소를 분석한다. 이를 통해 사용자가 원하는 목적지로의 택시 호출을 여러 택시 어플리케이션에서 동시에 시도한다. 2. 택시 호출 취소 최적화: 여러 택시 어플리케이션을 이용하여 사용자가 원하는 목적지로의 호출을 동시에 시도한 후, 첫 번째로 배차가 확정된 택시를 제외한 나머지 호출을 자동으로 취소하는 기능을 통해 사용자에 효율적인 택시 이용 경험을 제공한다. 추가로 사용자의 요청을 자동화하는 과정에서 발생하는 GPT API 호출 비용의 변동과 기술 발전 속도 등을 고려하여 Taxi Call Agent를 활용한 비즈니스 모델의 실제 실행 가능성을 분석한다.
목차
Introduction
멀티태스킹 및 API 호출 병렬 처리
SSIM을 이용한 택시 호출 취소
실험 환경과 학습 방식
에이전트의 휴대폰 조작 방식
택시 호출 자동화 프로세스
Taxi Call Agent의 사업화 가능성
경제적 지속 가능성과 비용 효율성
택시 호출 작업 효율성의 증대
독점 시장에서의 새로운 비즈니스 창출
Conclusion
References
