📝 评估

为什么要评估模型？

认识Alex，一家中型公司的机器学习工程师。Alex知道市面上有无数的AI模型——GPT、LLaMA等等——但哪一个最适合手头的工作呢？它们在纸面上听起来都很棒，但Alex不能仅仅依赖公开排行榜。这些模型在不同的上下文环境中表现各异，而且有些模型可能已经在评估数据集上进行过训练（这可不地道！）。此外，这些模型的写作风格有时会让人感觉……不对劲。

这就是Open WebUI的用武之地。它为Alex及其团队提供了一种简单的方法，可以根据他们的实际需求评估模型。无需复杂的数学。无需繁重的工作。只需在与模型交互时点赞或点踩。

总结

为什么评估很重要：模型太多，并非所有都符合你的特定需求。通用的公开排行榜并非总是值得信赖。
如何解决：Open WebUI提供内置评估系统。使用点赞/点踩来评价模型响应。
幕后发生什么：评分会调整你的个性化排行榜，并且评分聊天的快照将用于未来的模型微调！
评估选项:
- 竞技场模式：随机选择模型供你比较。
- 普通交互：像往常一样聊天并评价响应。

为什么公开评估不够？

公开排行榜并非针对你的特定用例量身定制。
有些模型在评估数据集上进行过训练，影响了结果的公平性。
模型整体表现可能不错，但其沟通风格或响应可能不符合你想要的“氛围”。

解决方案：使用Open WebUI进行个性化评估

Open WebUI内置评估功能，让你和你的团队在与模型交互的同时，发现最适合你特定需求的模型。

它是如何工作的？很简单！

在聊天过程中，如果你喜欢某个响应，就点赞；不喜欢就点踩。如果消息有兄弟消息（例如重新生成的响应或并排模型比较的一部分），你就在为你的个人排行榜做贡献。
排行榜在“管理”部分中易于访问，可帮助你根据团队的评估跟踪哪些模型表现最佳。

一个很酷的功能是？每当你评价一个响应时，系统都会捕获该对话的快照，这些快照未来将用于改进模型，甚至为未来的模型训练提供支持。（请注意，此功能仍在开发中！）

评估AI模型的两种方式

Open WebUI提供了两种直接的AI模型评估方法。

1. 竞技场模式

竞技场模式从可用模型池中随机选择模型，确保评估公平公正。这有助于消除手动比较中可能存在的缺陷：生态效度——确保你不会有意或无意地偏袒某个模型。

如何使用

从竞技场模式选择器中选择一个模型。
像往常一样使用它，但现在你处于“竞技场模式”中。

要让你的反馈影响排行榜，你需要一个所谓的兄弟消息。什么是兄弟消息？兄弟消息是指同一查询生成的任何替代响应（例如消息重新生成，或多个模型并排生成响应）。这样，你就可以直接比较响应。

评分提示：当你点赞一个响应时，另一个将自动获得点踩。因此，请注意，只对你认为真正最好的消息进行点赞！
一旦你评价了响应，你就可以查看排行榜，了解模型的表现如何。

以下是竞技场模式界面工作方式的预览

Arena Model Example

需要更深入的了解？你甚至可以复现聊天机器人竞技场风格的设置！

Chatbot Arena Example

2. 普通交互

如果你不想，无需切换到“竞技场模式”。你可以像日常操作一样正常使用Open WebUI并评价AI模型响应。随时都可以对模型响应进行点赞/点踩。但是，如果你希望你的反馈用于排行榜排名，你需要更换模型并与另一个模型进行交互。这确保有一个兄弟响应可以进行比较——只有两个不同模型之间的比较才会影响排名。

例如，这是你在普通交互中进行评分的方式

Normal Model Rating Interface

以下是设置多模型比较的示例，类似于竞技场

Multi-Model Comparison

排行榜

评分后，请查看“管理面板”下的排行榜。你将在此处直观地看到模型的表现，它们使用Elo评分系统进行排名（想想国际象棋排名！）。你将真实地了解哪些模型在评估中真正脱颖而出。

这是一个排行榜布局示例

Leaderboard Example

基于主题的重新排名

当你评价聊天时，你可以按主题对其进行标记，以获得更细致的洞察。如果你在不同领域工作，例如客户服务、创意写作、技术支持等，这会特别有用。

自动标记

Open WebUI会尝试根据对话主题自动标记聊天。然而，根据你使用的模型，自动标记功能可能有时会失败或错误地解释对话。发生这种情况时，最好手动标记你的聊天，以确保反馈的准确性。

如何手动标记：当你评价响应时，你将可以选择根据对话的上下文添加自己的标签。

不要跳过这一步！标记功能非常强大，因为它允许你根据特定主题重新排名模型。例如，你可能想看看哪个模型在回答技术支持问题方面表现最好，哪个在处理一般客户咨询方面表现最佳。

以下是重新排名的示例

Reranking Leaderboard by Topic

旁注：用于模型微调的聊天快照

每当你评价模型的响应时，Open WebUI都会_捕获该聊天的快照_。这些快照最终可用于微调你自己的模型——因此你的评估有助于AI的持续改进。

（请继续关注此功能的更多更新，它正在积极开发中！）

总结

简而言之，Open WebUI的评估系统有两个明确的目标

帮助你轻松比较模型。
最终找到最符合你个人需求的模型。

该系统的核心在于让AI模型评估对每个用户来说都简单、透明且可定制。无论是通过竞技场模式还是普通聊天交互，你都完全掌控着确定哪个AI模型最适合你的特定用例！

一如既往，你的所有数据都安全地保留在你的实例上，除非你明确选择社区共享，否则不会共享任何内容。你的隐私和数据自主权始终是优先考虑的。

为什么要评估模型？​

总结​

为什么公开评估不够？​

解决方案：使用Open WebUI进行个性化评估​

评估AI模型的两种方式​

1. 竞技场模式​

2. 普通交互​

排行榜​

基于主题的重新排名​

自动标记​

旁注：用于模型微调的聊天快照​

总结​