为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。
【ITBEAR】近日,有消息源在社交平台X上爆料,高通即将推出的第二代骁龙8至尊版芯片在性能测试中取得显著突破。据悉,该芯片在GeekBench 6的单核测试中成绩已突破4000分大关,且其多核性能相较于初代产品有了高达20%的提升。 该消息源还透露 ...
新智元报道  编辑:LRST【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模 ...
传统的评价方法,要么是靠人眼看,主观性太强;要么是用一些简单的指标,比如CLIPScore,但这些指标往往无法捕捉到复杂文本提示中的细节,比如对象之间的关系、逻辑推理等等。这就导致很多文生图模型的评测结果不准确,甚至会出现一些搞笑的情况,明明生成的图 ...
在人工智能快速发展的背景下,视频理解技术迎来了一次重要的进化。近日,香港理工大学与腾讯合作发布了新的测试基准——E.T. Bench,旨在提升视频时序理解的细粒度能力。该基准不仅为多模态大模型的能力评估提供了一个全面的平台,也为推动视频理解领域的研究贡献了一份力量。 什么是E.T. Bench? E.T. Bench,全名为Event-Level and Time-Sensitive Video ...
近日,由阿里巴巴通义实验室与美国西北大学的研究团队共同推出的Codev-Bench评估框架,引起了业界的广泛关注。该框架专注于提升代码自动补全工具的性能评估,旨在更加准确地反映开发者在实际编码过程中的需求与期望,具有深远的行业意义。
OpenAI 今天发布了一个名为 MLE-bench 的基准测试,专门用来测试 AI Agent 的机器学习工程能力!这是要让 AI 自己训练模型、准备数据集、跑实验的节奏吗?