UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

UP-NRPA：面向目标导向对话系统中大语言模型规划的基于用户画像的嵌套展开策略自适应方法

Abstract: To address the challenge that current dialogue policy planning methods struggle to dynamically adapt to diverse user characteristics, this paper proposes a User Portrait based Nested Rollout Policy Adaptation (UP-NRPA) online framework with Large Language Models.

摘要： 为解决当前对话策略规划方法难以动态适应多样化用户特征的挑战，本文提出了一种基于大语言模型的“基于用户画像的嵌套展开策略自适应”（UP-NRPA）在线框架。

In contrast to conventional approaches dependent on model training and require offline reinforcement learning policy models for user groups, UP-NRPA enables dynamic customization of dialogue strategies through an adaptive mechanism.

与依赖模型训练且需要针对特定用户群体进行离线强化学习策略模型的传统方法不同，UP-NRPA 通过一种自适应机制实现了对话策略的动态定制。

This is achieved by leveraging real-time user feedback alongside personality, preferences, and objectives mapped from the current user portrait, thereby adapting to user characteristics without offline reinforcement learning.

该方法通过利用实时用户反馈，结合从当前用户画像中映射出的个性、偏好和目标，从而在无需离线强化学习的情况下实现对用户特征的适应。

In collaborative and non-collaborative dialogue benchmarks, UP-NRPA demonstrated considerable benefits, achieving an impressive 100% success rate in multiple dialogue tasks. Particularly in negotiation tasks, the sale-to-list ratio (SL) increased by 56.41%.

在协作与非协作对话基准测试中，UP-NRPA 展示了显著优势，在多个对话任务中实现了令人瞩目的 100% 成功率。特别是在谈判任务中，成交价与挂牌价之比（SL）提升了 56.41%。

This demonstrates that UP-NRPA can adapt to diverse user needs without requiring a training mechanism, enabling the dialogue system to adapt to user characteristics.

这表明 UP-NRPA 无需训练机制即可适应多样化的用户需求，使对话系统能够灵活适配用户特征。