Frequency and presence penalties

频率和存在处罚

在完成 API中找到的频率和存在惩罚可用于降低对重复的令牌序列进行采样的可能性。 它们通过直接修改具有加性贡献的对数(非规范化对数概率)来工作。

代码语言:javascript代码运行次数:0运行复制
mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence

条件:

  • mu[j]是 j 令牌的对数
  • c[j]是该令牌在当前位置之前采样的频率
  • float(c[j] > 0)是 1 if,否则为 0c[j] > 0
  • alpha_frequency是频率惩罚系数
  • alpha_presence是存在惩罚系数

正如我们所看到的,存在惩罚是一次性的加性贡献,适用于至少采样过一次的所有令牌,频率惩罚是与特定令牌已被采样的频率成正比的贡献。

惩罚系数的合理值约为 0.1 比 1,如果目的是稍微减少重复样本。如果目的是强烈抑制重复,则可以将系数增加到 2,但这会显着降低样本的质量。负值可用于增加重复的可能性。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2023-02-13,如有侵权请联系 cloudcommunity@tencent 删除系统apifrequencyopenai入门