GPT-4全面被超越!全球最强大模型一夜易主

发布时间:2024-03-05  

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入

Gemini 1.5 Pro:嗯?

目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)

另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。

不过奥特曼可能还在烦马斯克的诉讼……

最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。

首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:

还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。

对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C – Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。

他认为,真正区分模型性能基准的是MATH and GPQA

另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低

在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。

还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;

中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;

小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入

对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。

第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:

底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。

然鹅,可能是人太多的原因,尝试了几次都显示“Failed”

不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:

还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了

在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。

还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:

初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?

好了,感兴趣的朋友,可以戳下方链接体验啦~

文章来源于:21IC    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    是图像、图形,而不只是文字。所以,全功能GPU将成为关键。 他进一步解释称,为什么很多用户会喜欢用全功能?因为我们不能限制用户今天只能干这件事,如果换一个代码就不能用,那用户肯定不愿意投。另一方面,如果......
    也奇怪了,为什么国产车企“结账慢”,特斯拉等外资结账很快呢?背后的原由是什么? 作为曾在传统企业摸爬滚打的“老兵”,今天......
    等,有几样不是国外品牌?作为一个制造大国,如此依赖国外技术的局面的确令人心寒。 ▌ 为什么国内......
    电路用一个数学模型来计算电机负载变化时的最佳的电机励磁,并对负载加以补偿。此外集成于ASIC电路上的同步60°PWM方法决定了逆变器半导体器件(IGBTS)的最佳开关时间。 25、为什么变频器不能用作变频电源? 变频......
    网友也顺势发出感叹:为什么国产工控行业造不出顶级的PLC? 网友A: 1、造出顶级PLC需要能够沉下心来的工程师,慢工出细活。 2、还需要好的市场环境,无论是哪个国家的产品,最终......
    为什么不能用万用表测量绝缘电阻?兆欧表的使用方法和注意事项;为什么不能用测量绝缘电阻? 如果用万用表测量设备的绝缘电阻,测得的是低电压下的绝缘电阻值,不能......
    R型数控机床控制变压器有什么特点?;       数控机床能用R型控制变压器吗?他能精准控制变压吗?答案是肯定的,数控机床设备常见频率是50-60Hz,而我们R型控制变压器就是50-60Hz的低......
    自动驾驶l1-l5技术区别 自动驾驶为什么不能用燃油车;自动驾驶l1-l5技术区别 自动驾驶技术按照SAE国际自动驾驶标准分为不同的级别,从L1到L5,每个......
    损耗和发热增加,最终造成轴承烧毁。 为什么一般电机不能用于高原地区? 海拔高度对电机温升,电机电晕(高压电机)及直流电机的换向均有不利影响。 应注意以下三方面: 海拔高,电机温升越大,输出功率越小。但当......
    损耗和发热增加,最终造成轴承烧毁。 为什么一般电机不能用于高原地区? 海拔高度对电机温升,电机电晕(高压电机)及直流电机的换向均有不利影响。 应注意以下三方面: 1.海拔高,电机温升越大,输出......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>