跳到主要内容

📝 评估

为什么要评估模型?

认识Alex,一家中型公司的机器学习工程师。Alex知道市面上有无数的AI模型——GPT、LLaMA等等——但哪一个最适合手头的工作呢?它们在纸面上听起来都很棒,但Alex不能仅仅依赖公开排行榜。这些模型在不同的上下文环境中表现各异,而且有些模型可能已经在评估数据集上进行过训练(这可不地道!)。此外,这些模型的写作风格有时会让人感觉……不对劲。

这就是Open WebUI的用武之地。它为Alex及其团队提供了一种简单的方法,可以根据他们的实际需求评估模型。无需复杂的数学。无需繁重的工作。只需在与模型交互时点赞或点踩。

总结

  • 为什么评估很重要:模型太多,并非所有都符合你的特定需求。通用的公开排行榜并非总是值得信赖。
  • 如何解决:Open WebUI提供内置评估系统。使用点赞/点踩来评价模型响应。
  • 幕后发生什么:评分会调整你的个性化排行榜,并且评分聊天的快照将用于未来的模型微调!
  • 评估选项:
    • 竞技场模式:随机选择模型供你比较。
    • 普通交互:像往常一样聊天并评价响应。

为什么公开评估不够?

  • 公开排行榜并非针对你的特定用例量身定制。
  • 有些模型在评估数据集上进行过训练,影响了结果的公平性。
  • 模型整体表现可能不错,但其沟通风格或响应可能不符合你想要的“氛围”。

解决方案:使用Open WebUI进行个性化评估

Open WebUI内置评估功能,让你和你的团队在与模型交互的同时,发现最适合你特定需求的模型。

它是如何工作的?很简单!

  • 在聊天过程中,如果你喜欢某个响应,就点赞;不喜欢就点踩。如果消息有兄弟消息(例如重新生成的响应或并排模型比较的一部分),你就在为你的个人排行榜做贡献。
  • 排行榜在“管理”部分中易于访问,可帮助你根据团队的评估跟踪哪些模型表现最佳。

一个很酷的功能是?每当你评价一个响应时,系统都会捕获该对话的快照,这些快照未来将用于改进模型,甚至为未来的模型训练提供支持。(请注意,此功能仍在开发中!)


评估AI模型的两种方式

Open WebUI提供了两种直接的AI模型评估方法。

1. 竞技场模式

竞技场模式从可用模型池中随机选择模型,确保评估公平公正。这有助于消除手动比较中可能存在的缺陷:生态效度——确保你不会有意或无意地偏袒某个模型。

如何使用

  • 从竞技场模式选择器中选择一个模型。
  • 像往常一样使用它,但现在你处于“竞技场模式”中。

要让你的反馈影响排行榜,你需要一个所谓的兄弟消息。什么是兄弟消息?兄弟消息是指同一查询生成的任何替代响应(例如消息重新生成,或多个模型并排生成响应)。这样,你就可以直接比较响应。

  • 评分提示:当你点赞一个响应时,另一个将自动获得点踩。因此,请注意,只对你认为真正最好的消息进行点赞!
  • 一旦你评价了响应,你就可以查看排行榜,了解模型的表现如何。

以下是竞技场模式界面工作方式的预览

Arena Model Example

需要更深入的了解?你甚至可以复现聊天机器人竞技场风格的设置!

Chatbot Arena Example

2. 普通交互

如果你不想,无需切换到“竞技场模式”。你可以像日常操作一样正常使用Open WebUI并评价AI模型响应。随时都可以对模型响应进行点赞/点踩。但是,如果你希望你的反馈用于排行榜排名,你需要更换模型并与另一个模型进行交互。这确保有一个兄弟响应可以进行比较——只有两个不同模型之间的比较才会影响排名。

例如,这是你在普通交互中进行评分的方式

Normal Model Rating Interface

以下是设置多模型比较的示例,类似于竞技场

Multi-Model Comparison


排行榜

评分后,请查看“管理面板”下的排行榜。你将在此处直观地看到模型的表现,它们使用Elo评分系统进行排名(想想国际象棋排名!)。你将真实地了解哪些模型在评估中真正脱颖而出。

这是一个排行榜布局示例

Leaderboard Example

基于主题的重新排名

当你评价聊天时,你可以按主题对其进行标记,以获得更细致的洞察。如果你在不同领域工作,例如客户服务、创意写作、技术支持等,这会特别有用。

自动标记

Open WebUI会尝试根据对话主题自动标记聊天。然而,根据你使用的模型,自动标记功能可能有时会失败或错误地解释对话。发生这种情况时,最好手动标记你的聊天,以确保反馈的准确性。

  • 如何手动标记:当你评价响应时,你将可以选择根据对话的上下文添加自己的标签。

不要跳过这一步!标记功能非常强大,因为它允许你根据特定主题重新排名模型。例如,你可能想看看哪个模型在回答技术支持问题方面表现最好,哪个在处理一般客户咨询方面表现最佳。

以下是重新排名的示例

Reranking Leaderboard by Topic


旁注:用于模型微调的聊天快照

每当你评价模型的响应时,Open WebUI都会_捕获该聊天的快照_。这些快照最终可用于微调你自己的模型——因此你的评估有助于AI的持续改进。

(请继续关注此功能的更多更新,它正在积极开发中!)


总结

简而言之,Open WebUI的评估系统有两个明确的目标

  1. 帮助你轻松比较模型
  2. 最终找到最符合你个人需求的模型。

该系统的核心在于让AI模型评估对每个用户来说都简单、透明且可定制。无论是通过竞技场模式还是普通聊天交互,你都完全掌控着确定哪个AI模型最适合你的特定用例

一如既往,你的所有数据都安全地保留在你的实例上,除非你明确选择社区共享,否则不会共享任何内容。你的隐私和数据自主权始终是优先考虑的。