GPT4, 文言一心4,ChatGLM Turbo, Claude2.1, 谷歌Gemini, GPT3.5逻辑处理能力横向比较

GPT4, 文言一心4,ChatGLM Turbo, Claude2.1, 谷歌Gemini, GPT3.5逻辑处理能力横向比较

GPT4, 文言一心4,ChatGLM Turbo, Claude2.1, 谷歌Gemini, GPT3.5逻辑处理能力横向比较

  在GPT模型进入到4.0时代之后,语言模型的逻辑判断和处理能力都得到了显著的提高。Claude 2.1以及百度文心一言4等模型在逻辑判断上都持续发力,逻辑判断方面基本达到实用的层面。特别是跟用户的语言交互结合,加上不错的逻辑判断能力,也为我们的程序开发提供了一种新的范式。具体可以参见文档:基于AI语言大模型的新编程范式。 

        为了让大家有更加直观的感受,我们特别实测比较一下几种不同的顶流语言大模型的逻辑处理能力。

例子一: 目标像素目标选择

场景描述:在使用stable xl模型进行图片处理时对于原图像像素有限定,仅能支持1024x1024, 1152x896, 1216x832, 1344x768, 1536x640, 640x1536, 768x1344, 832x1216, 896x1152这些像素的图片,所以我们需要对图片进行预处理,找到满足要求的像素目标。

我们设定一个宽和长分别为500 x 750的图片,让语言大模型帮我们找到最合适调整的目标像素。

提示词如下:


The image original width is: '500', height is: '750', which is 500x750 for short, the required image dimensions are:
        1024x1024, 1152x896, 1216x832, 1344x768, 1536x640, 640x1536, 768x1344, 832x1216, 896x1152. They are all in the widthxheight format.
        please pick one and only one suitable dimensions for the image, and return the target dimensions in the plain text format:
        
        target_width x target_height
        Do NOT need to explain or give any conversation, just extract the target image dimensions in the above JSON format.

我们来具体看一下个模型给出的判断结果:

模型 结果
GPT4 896x1152
文言一心4 1024x1024
ChatGLM Turbo 1024x1024
Claude 2.1 1280x960
Gemini Pro 1024x1024
GPT 3.5 1024x1024

我们可以看到GPT4给出得目标尺寸是最适合这张图片调整的,其他的尺寸都会造成图片比较大的变形。

例子一: 客服工单系统决定问题路由到哪个具体部门。

 场景描述:在客服系统中,如果遇到客户问题升级需要转到具体对应部门处理时,或者是依靠人工判断,如果要自动判断,需要涉及到大量的NLP关键词处理。本身语言和客户情况都比较复杂,会导致NLP处理和逻辑处理都非常复杂。

我们设定的场景会略微复杂一些,初步设定了5个不同的部门"售后处理部门", "产品咨询部门", "打假部门", "投诉部门", "VIP特别通道", 中间会有一些交叉。

  1. 售后处理部门: 处理用户产品质量问题,退货退款等问题
  2. 产品咨询部门: 处理用户对产品的咨询,包括产品的使用,产品的功能等
  3. 打假部门: 处理平台上的假货事件
  4. 投诉部门: 处理用户对平台的投诉,包括卖家的服务态度,平台的服务态度等
  5. VIP特别通道: 专门处理今年消费超过10000的VIP用户的问题

客户进行的投诉为“我在你们平台上买的口红, 发货之后发现口红是假的,卖家死活不承认,已经跟我拉扯了3天了,我要投诉你们”。我们将客户设定为VIP。

并且我们稍微设置了一点小陷阱,针对消费超过30000的VIP设定了VIP特别通道。

模型提示词如下


prompt = """
        You are an online customer router, you need to decide which department should be routed.
        
        The user problem is: <我在你们平台上买的口红, 发货之后发现口红是假的,卖家死活不承认,已经跟我拉扯了3天了,我要投诉你们>.
        The user info is: <VIP, spent 30000 in this year>
        
        We have the following departments:
        1. 售后处理部门: 处理用户产品质量问题,退货退款等问题
        2. 产品咨询部门: 处理用户对产品的咨询,包括产品的使用,产品的功能等
        3. 打假部门: 处理平台上的假货事件
        4. 投诉部门: 处理用户对平台的投诉,包括卖家的服务态度,平台的服务态度等
        5. VIP特别通道: 专门处理今年消费超过10000的VIP用户的问题
        
        Please decide which department should be routed, and return in the following JSON format:
        {
            "department": <department_name>,
            "product": <product_name>
            "user_requirement": <user_requirement>
        }
        
        Do NOT need to explain or give any conversation, just return the JSON result.
    """

下面我们看一下不同模型的逻辑判断结果。

模型 部门 产品 用户诉求
GPT4 VIP特别通道 口红 处理假货投诉并要求卖家认证
文言一心4 售后处理部门 口红 处理假货及退货退款问题
ChatGLM Turbo 投诉部门 口红 处理卖家不承认售假行为的投诉
Claude 2.1 售后处理部门 口红 投诉卖家和平台处理慢
Gemini Pro 投诉部门 口红 投诉卖家卖假货,要求平台介入处理
GPT 3.5 打假部门 口红 投诉

我们可以看到大家对于投诉的产品和用户诉求的处理基本都ok(除了GPT3.5),但是只有GPT4帮我们转到了VIP特别通道,其他模型的判断都不能算错。

我们接下来把用户的消费金额改为300元(不足VIP特别通道的处理金额),看一下各模型的判断结果。

模型 部门 产品 用户诉求
GPT4 打假部门 口红 处理假货投诉并要求卖家认证
文言一心4 投诉部门 口红 投诉卖家服务态度和平台处理假货问题
ChatGLM Turbo 售后处理部门 口红 处理用户产品质量问题,退货退款等
Claude 2.1 售后处理部门 口红 处理用户产品质量问题,退货退款等问题
Gemini Pro 打假部门 口红 投诉卖家售卖假货
GPT 3.5 打假部门 口红 投诉

GPT4已经将用户转到了“打假部门”。

总结:

在我们所做的简单逻辑判断测试中,GPT4的效果当之无愧为语言处理模型的王者,明显要好于其他模型。结合之前的其他测试结果,给出笔者的一个综合评价,希望大家有一定的参考价值。

模型 逻辑处理效果 说明
GPT4 * * * * * 效果最佳,五星好评,当之无愧的王者
Claude 2.1 * * * * 相比GPT4还是略逊一筹
文言一心4 * * * * 效果也还不错
谷歌Gemini * * * * DeepMind团队操刀,初露锋芒
ChatGLM3 * * * 比ChatGLM2明显提升,好于GPT3.5,价格优势
GPT3.5 * * * 老牌强旅,余威尚在
以上评测仅为笔者个人有限场景使用体验,就像一首诗每个人的解读都不一样,属于您的理解还得您亲自读完方可

 “日月摘星”助您比竞争对手更快一步完成AI升级。

        “日月摘星”为您整合了顶流的语言大模型AI,为您提供便捷的接口访问,仅需要10分钟就可以接入顶流的语言AI大模型,图形处理AI大模型,以及智能知识库接口等。

        您可以一站式试用,组合选择适合您的AI语言大模型,上述的语言大模型“日月摘星”您可以接入访问。(Gemini模型近期即将上线,敬请期待)。

        现在注册认证更送6.66元体验金,还等什么,马上点击注册“日月摘星”,比竞争对手更快一步进入AI新时代!

        点击了解日月摘星更多能力介绍

无需东奔西走,日月摘星统一API接口助您10分钟接入AI新时代!