跳到主要内容

📝 评估

为什么我应该评估模型?

遇到Alex,一位中型公司的机器学习工程师。Alex 知道市面上有无数的人工智能模型——GPT、LLaMA 等等——但哪一个最适合当前的工作呢?它们在纸面上都听起来令人印象深刻,但 Alex 不能仅仅依靠公开排行榜。这些模型在不同语境下表现不同,而且有些模型可能已经在评估数据集上进行了训练(真是狡猾!)。此外,这些模型的写作风格有时会让人感觉……不对劲。

这正是 Open WebUI 的用武之地。它为 Alex 和他们的团队提供了一种简单的方法,可以根据他们的实际需求来评估模型。无需复杂的数学计算。无需繁重的工作。只需在与模型互动时给出“赞”或“踩”即可。

一句话总结

  • 为什么评估很重要:模型太多,但并非所有都符合您的特定需求。普通的公开排行榜并非总是值得信赖。
  • 如何解决:Open WebUI 提供内置评估系统。使用“赞”/“踩”来评价模型的回复。
  • 幕后发生的事情:评分会调整您的个性化排行榜,并且评分聊天的快照将用于将来的模型微调!
  • 评估选项:
    • 竞技场模式:随机选择模型供您比较。
    • 常规互动:像往常一样聊天并评价回复。

为什么公开评估不够?

  • 公开排行榜并非针对您的特定用例量身定制。
  • 有些模型在评估数据集上进行了训练,影响了结果的公平性。
  • 一个模型整体表现可能不错,但其沟通风格或回复可能与您想要的“感觉”不符。

解决方案:使用 Open WebUI 进行个性化评估

Open WebUI 具有内置的评估功能,让您和您的团队在与模型互动的同时,发现最适合您特定需求的模型。

它是如何工作的?很简单!

  • 在聊天过程中,如果您喜欢某个回复,就点赞;如果您不喜欢,就点踩。如果该消息有兄弟消息(例如重新生成的回复或并排模型比较的一部分),您就是在为您的个人排行榜做贡献。
  • 排行榜在管理员部分很容易访问,帮助您跟踪根据您的团队评估表现最好的模型。

一个很酷的功能?每当您评价一个回复时,系统会捕获该对话的快照,这些快照以后将用于优化模型,甚至为将来的模型训练提供支持。(请注意,此功能仍在开发中!)


评估 AI 模型的两种方式

Open WebUI 提供了两种直接的方法来评估 AI 模型。

1. 竞技场模式

竞技场模式会从可用模型池中随机选择模型,确保评估公平公正。这有助于消除手动比较中可能存在的缺陷:生态效度——确保您不会有意或无意地偏爱某个模型。

如何使用

  • 从竞技场模式选择器中选择一个模型。
  • 像平常一样使用它,但现在您处于“竞技场模式”下。

要让您的反馈影响排行榜,您需要一个所谓的兄弟消息。什么是兄弟消息?兄弟消息只是同一查询生成的任何替代回复(例如消息重新生成或让多个模型并排生成回复)。通过这种方式,您可以正面比较回复。

  • 评分提示:当您为其中一个回复点赞时,另一个回复会自动获得点踩。因此,请注意并只为您认为真正最好的消息点赞!
  • 评价完回复后,您可以查看排行榜,了解模型的表现。

这是竞技场模式界面工作方式的预览

Arena Model Example

需要更深入了解?您甚至可以复现 Chatbot Arena 风格的设置!

Chatbot Arena Example

2. 常规互动

如果您不想,无需切换到“竞技场模式”。您可以正常使用 Open WebUI,并在日常操作中评价 AI 模型的回复。只需在您觉得合适时给模型回复点赞/点踩即可。但是,如果您希望您的反馈用于排行榜排名,您需要切换模型并与另一个模型互动。这确保了有一个兄弟回复可以进行比较——只有两个不同模型之间的比较才会影响排名。

例如,这是您在常规互动中评分的方式

Normal Model Rating Interface

这是一个设置多模型比较的示例,类似于竞技场

Multi-Model Comparison


排行榜

评分后,请查看管理员面板下的排行榜。在这里,您将直观地看到模型的表现,排名使用的是Elo 评分系统(就像国际象棋排名一样!)。您将真正看到哪些模型在评估中脱颖而出。

这是一个示例排行榜布局

Leaderboard Example

基于主题的重新排名

当您评价聊天时,可以按主题标记,以获得更精细的洞察。如果您在不同领域工作,例如客户服务、创意写作、技术支持等,这将特别有用。

自动标记

Open WebUI 尝试根据对话主题自动标记聊天。但是,根据您使用的模型,自动标记功能有时可能会失败或误解对话。发生这种情况时,最好的做法是手动标记您的聊天,以确保反馈准确。

  • 如何手动标记:当您评价回复时,您可以根据对话内容选择添加自己的标签。

不要跳过这一步!标记功能非常强大,因为它允许您根据特定主题对模型进行重新排名。例如,您可能想看看哪个模型在回答技术支持问题方面的表现优于处理普通客户咨询。

这是一个重新排名示例的外观

Reranking Leaderboard by Topic


旁注:用于模型微调的聊天快照

每当您评价模型的回复时,Open WebUI 捕获该聊天的快照。这些快照最终可以用于**微调您自己的模型**——这样您的评估就会为 AI 的持续改进做出贡献。

(请持续关注此功能的更多更新,它正在积极开发中!)


总结

简而言之,Open WebUI 的评估系统有两个明确目标

  1. 帮助您轻松比较模型
  2. 最终找到最符合您个人需求的模型。

其核心在于使 AI 模型评估对每个用户来说都**简单、透明且可定制**。无论是通过竞技场模式还是常规聊天互动,**您都可以完全控制确定哪个 AI 模型最适合您的特定用例**!

一如既往,您的所有数据都安全地保存在**您的实例**上,除非您明确**选择加入社区共享**,否则不会共享任何内容。您的隐私和数据自主权始终是优先考虑的。