Bench - 搜索 News

1 天

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是 ...

为了避免Claude团队糟糕的命名方式造成混淆，下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

4 天on MSN

高通骁龙8 Gen 5芯片性能大跃升：GeekBench 6单核突破4000，多核飙升20%以上

【ITBEAR】近日，有消息源在社交平台X上爆料，高通即将推出的第二代骁龙8至尊版芯片在性能测试中取得显著突破。据悉，该芯片在GeekBench 6的单核测试中成绩已突破4000分大关，且其多核性能相较于初代产品有了高达20%的提升。该消息源还透露 ...

腾讯网10 天

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

新智元报道编辑：LRST【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模 ...

10 天

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远 ...

传统的评价方法，要么是靠人眼看，主观性太强;要么是用一些简单的指标，比如CLIPScore，但这些指标往往无法捕捉到复杂文本提示中的细节，比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确，甚至会出现一些搞笑的情况，明明生成的图 ...

11 天

港理工与腾讯推出E.T. Bench，推动视频理解技术进入新纪元

在人工智能快速发展的背景下，视频理解技术迎来了一次重要的进化。近日，香港理工大学与腾讯合作发布了新的测试基准——E.T. Bench，旨在提升视频时序理解的细粒度能力。该基准不仅为多模态大模型的能力评估提供了一个全面的平台，也为推动视频理解领域的研究贡献了一份力量。什么是E.T. Bench？ E.T. Bench，全名为Event-Level and Time-Sensitive Video ...

13 天

阿里通义新推Codev-Bench：重塑代码补全任务评估标准

近日，由阿里巴巴通义实验室与美国西北大学的研究团队共同推出的Codev-Bench评估框架，引起了业界的广泛关注。该框架专注于提升代码自动补全工具的性能评估，旨在更加准确地反映开发者在实际编码过程中的需求与期望，具有深远的行业意义。

腾讯网1 个月

OpenAI 推出 MLE-bench：o1 狂揽 7 枚金牌，超越人类 Kaggle 大师

OpenAI 今天发布了一个名为 MLE-bench 的基准测试，专门用来测试 AI Agent 的机器学习工程能力！这是要让 AI 自己训练模型、准备数据集、跑实验的节奏吗？

一些您可能无法访问的结果已被隐去。

显示无法访问的结果