GPT4, 文言一心4,ChatGLM Turbo, Claude2.1, 谷歌Gemini, GPT3.5逻辑处理能力横向比较
GPT4, 文言一心4,ChatGLM Turbo, Claude2.1, 谷歌Gemini, GPT3.5逻辑处理能力横向比较

在GPT模型进入到4.0时代之后,语言模型的逻辑判断和处理能力都得到了显著的提高。Claude 2.1以及百度文心一言4等模型在逻辑判断上都持续发力,逻辑判断方面基本达到实用的层面。特别是跟用户的语言交互结合,加上不错的逻辑判断能力,也为我们的程序开发提供了一种新的范式。具体可以参见文档:基于AI语言大模型的新编程范式。
为了让大家有更加直观的感受,我们特别实测比较一下几种不同的顶流语言大模型的逻辑处理能力。
例子一: 目标像素目标选择
场景描述:在使用stable xl模型进行图片处理时对于原图像像素有限定,仅能支持1024x1024, 1152x896, 1216x832, 1344x768, 1536x640, 640x1536, 768x1344, 832x1216, 896x1152这些像素的图片,所以我们需要对图片进行预处理,找到满足要求的像素目标。
我们设定一个宽和长分别为500 x 750的图片,让语言大模型帮我们找到最合适调整的目标像素。
提示词如下:
The image original width is: '500', height is: '750', which is 500x750 for short, the required image dimensions are:
1024x1024, 1152x896, 1216x832, 1344x768, 1536x640, 640x1536, 768x1344, 832x1216, 896x1152. They are all in the widthxheight format.
please pick one and only one suitable dimensions for the image, and return the target dimensions in the plain text format:
target_width x target_height
Do NOT need to explain or give any conversation, just extract the target image dimensions in the above JSON format.
我们来具体看一下个模型给出的判断结果:
模型 | 结果 |
---|---|
GPT4 | 896x1152 |
文言一心4 | 1024x1024 |
ChatGLM Turbo | 1024x1024 |
Claude 2.1 | 1280x960 |
Gemini Pro | 1024x1024 |
GPT 3.5 | 1024x1024 |
我们可以看到GPT4给出得目标尺寸是最适合这张图片调整的,其他的尺寸都会造成图片比较大的变形。
例子一: 客服工单系统决定问题路由到哪个具体部门。
场景描述:在客服系统中,如果遇到客户问题升级需要转到具体对应部门处理时,或者是依靠人工判断,如果要自动判断,需要涉及到大量的NLP关键词处理。本身语言和客户情况都比较复杂,会导致NLP处理和逻辑处理都非常复杂。
我们设定的场景会略微复杂一些,初步设定了5个不同的部门"售后处理部门", "产品咨询部门", "打假部门", "投诉部门", "VIP特别通道", 中间会有一些交叉。
- 售后处理部门: 处理用户产品质量问题,退货退款等问题
- 产品咨询部门: 处理用户对产品的咨询,包括产品的使用,产品的功能等
- 打假部门: 处理平台上的假货事件
- 投诉部门: 处理用户对平台的投诉,包括卖家的服务态度,平台的服务态度等
- VIP特别通道: 专门处理今年消费超过10000的VIP用户的问题
客户进行的投诉为“我在你们平台上买的口红, 发货之后发现口红是假的,卖家死活不承认,已经跟我拉扯了3天了,我要投诉你们”。我们将客户设定为VIP。
并且我们稍微设置了一点小陷阱,针对消费超过30000的VIP设定了VIP特别通道。
模型提示词如下
prompt = """
You are an online customer router, you need to decide which department should be routed.
The user problem is: <我在你们平台上买的口红, 发货之后发现口红是假的,卖家死活不承认,已经跟我拉扯了3天了,我要投诉你们>.
The user info is: <VIP, spent 30000 in this year>
We have the following departments:
1. 售后处理部门: 处理用户产品质量问题,退货退款等问题
2. 产品咨询部门: 处理用户对产品的咨询,包括产品的使用,产品的功能等
3. 打假部门: 处理平台上的假货事件
4. 投诉部门: 处理用户对平台的投诉,包括卖家的服务态度,平台的服务态度等
5. VIP特别通道: 专门处理今年消费超过10000的VIP用户的问题
Please decide which department should be routed, and return in the following JSON format:
{
"department": <department_name>,
"product": <product_name>
"user_requirement": <user_requirement>
}
Do NOT need to explain or give any conversation, just return the JSON result.
"""
下面我们看一下不同模型的逻辑判断结果。
模型 | 部门 | 产品 | 用户诉求 |
---|---|---|---|
GPT4 | VIP特别通道 | 口红 | 处理假货投诉并要求卖家认证 |
文言一心4 | 售后处理部门 | 口红 | 处理假货及退货退款问题 |
ChatGLM Turbo | 投诉部门 | 口红 | 处理卖家不承认售假行为的投诉 |
Claude 2.1 | 售后处理部门 | 口红 | 投诉卖家和平台处理慢 |
Gemini Pro | 投诉部门 | 口红 | 投诉卖家卖假货,要求平台介入处理 |
GPT 3.5 | 打假部门 | 口红 | 投诉 |
我们可以看到大家对于投诉的产品和用户诉求的处理基本都ok(除了GPT3.5),但是只有GPT4帮我们转到了VIP特别通道,其他模型的判断都不能算错。
我们接下来把用户的消费金额改为300元(不足VIP特别通道的处理金额),看一下各模型的判断结果。
模型 | 部门 | 产品 | 用户诉求 |
---|---|---|---|
GPT4 | 打假部门 | 口红 | 处理假货投诉并要求卖家认证 |
文言一心4 | 投诉部门 | 口红 | 投诉卖家服务态度和平台处理假货问题 |
ChatGLM Turbo | 售后处理部门 | 口红 | 处理用户产品质量问题,退货退款等 |
Claude 2.1 | 售后处理部门 | 口红 | 处理用户产品质量问题,退货退款等问题 |
Gemini Pro | 打假部门 | 口红 | 投诉卖家售卖假货 |
GPT 3.5 | 打假部门 | 口红 | 投诉 |
GPT4已经将用户转到了“打假部门”。
总结:
在我们所做的简单逻辑判断测试中,GPT4的效果当之无愧为语言处理模型的王者,明显要好于其他模型。结合之前的其他测试结果,给出笔者的一个综合评价,希望大家有一定的参考价值。
模型 | 逻辑处理效果 | 说明 |
---|---|---|
GPT4 | * * * * * | 效果最佳,五星好评,当之无愧的王者 |
Claude 2.1 | * * * * | 相比GPT4还是略逊一筹 |
文言一心4 | * * * * | 效果也还不错 |
谷歌Gemini | * * * * | DeepMind团队操刀,初露锋芒 |
ChatGLM3 | * * * | 比ChatGLM2明显提升,好于GPT3.5,价格优势 |
GPT3.5 | * * * | 老牌强旅,余威尚在 |
以上评测仅为笔者个人有限场景使用体验,就像一首诗每个人的解读都不一样,属于您的理解还得您亲自读完方可
“日月摘星”助您比竞争对手更快一步完成AI升级。
“日月摘星”为您整合了顶流的语言大模型AI,为您提供便捷的接口访问,仅需要10分钟就可以接入顶流的语言AI大模型,图形处理AI大模型,以及智能知识库接口等。
您可以一站式试用,组合选择适合您的AI语言大模型,上述的语言大模型“日月摘星”您可以接入访问。(Gemini模型近期即将上线,敬请期待)。
现在注册认证更送6.66元体验金,还等什么,马上点击注册“日月摘星”,比竞争对手更快一步进入AI新时代!
点击了解日月摘星更多能力介绍。
无需东奔西走,日月摘星统一API接口助您10分钟接入AI新时代!
