Bench - 搜索 News

13 天

在当今快速发展的软件开发领域，代码自动补全工具正在逐渐改变开发者的工作模式。最近，阿里巴巴通义实验室与美国西北大学的研究人员联合推出了一个创新的评测框架——Codev-Bench。这个基于真实业务场景的评测集合，旨在从开发者的角度出发，为代码自动补全任务提供更为细致和精准的评估。这一突破性成果，不仅响应了当前行业对高效评测工具的迫切需求，也为软件开发的未来提供了重要参考。 Codev-Bench的 ...

11 天

港理工与腾讯推出E.T. Bench，推动视频理解技术进入新纪元

在人工智能快速发展的背景下，视频理解技术迎来了一次重要的进化。近日，香港理工大学与腾讯合作发布了新的测试基准——E.T. Bench，旨在提升视频时序理解的细粒度能力。该基准不仅为多模态大模型的能力评估提供了一个全面的平台，也为推动视频理解领域的研究贡献了一份力量。什么是E.T. Bench？ E.T. Bench，全名为Event-Level and Time-Sensitive Video ...

1 天

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是 ...

为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

新浪网27 天

OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

1. OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？ OpenAI 提出的 MLE-bench 是什么？MLE-bench 暗示了什么？为什么 OpenAI 认为能够解决 MLE-bench 的模型可能会 ...

腾讯网10 天

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

新智元报道编辑：LRST【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模 ...

4 天on MSN

高通骁龙8 Gen 5芯片性能大跃升：GeekBench 6单核突破4000，多核飙升20%以上

【ITBEAR】近日，有消息源在社交平台X上爆料，高通即将推出的第二代骁龙8至尊版芯片在性能测试中取得显著突破。据悉，该芯片在GeekBench 6的单核测试中成绩已突破4000分大关，且其多核性能相较于初代产品有了高达20%的提升。该消息源还透露 ...

1 天

AI玩《我的世界》大比拼！Claude新版本建筑水平惊艳全网

近日，一场别开生面的AI能力评测在《我的世界》平台上展开，吸引了大量关注。新旧两个版本的Claude3.5Sonnet在游戏中展开建筑PK，展现出明显的能力差异，新版本（暂称"Sonnet3.6"）的表现尤其亮眼。

腾讯网11 天

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格 ...

新智元报道编辑：编辑部 LHj【新智元导读】刚刚，Claude 3.5 Haiku允许通过API访问，同一天，xAI也官宣Grok API也正式开启公测。就在刚刚，Anthropic宣布，Claude 3.5 ...

1 天on MSN

AI对决《我的世界》：新旧Claude盖楼大比拼，创意与审美成新评测标准！

【ITBEAR】在人工智能领域，一项新的评测基准正悄然兴起，它不同于传统的算法测试，而是将AI放入了一个极具创意的场景——《我的世界》游戏中进行建筑能力的比拼。这项新奇的评测方法吸引了大量关注，不同版本的大模型如Claude 3.5 ...

10 天

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远 ...

传统的评价方法，要么是靠人眼看，主观性太强;要么是用一些简单的指标，比如CLIPScore，但这些指标往往无法捕捉到复杂文本提示中的细节，比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确，甚至会出现一些搞笑的情况，明明生成的图 ...

18 天

Anthropic发布Claude-3-5-sonnet-20241022，开启计算机操作新时代附使用地址

在人工智能领域，Anthropic公司的最新力作——Claude-3-5-sonnet-20241022模型，以其革命性的功能和卓越的性能，引起了业界的广泛关注。以下是对这一模型的详细介绍。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果