在人工智能快速发展的背景下,视频理解技术迎来了一次重要的进化。近日,香港理工大学与腾讯合作发布了新的测试基准——E.T. Bench,旨在提升视频时序理解的细粒度能力。该基准不仅为多模态大模型的能力评估提供了一个全面的平台,也为推动视频理解领域的研究贡献了一份力量。 什么是E.T. Bench? E.T. Bench,全名为Event-Level and Time-Sensitive Video ...
在当今快速发展的软件开发领域,代码自动补全工具正在逐渐改变开发者的工作模式。最近,阿里巴巴通义实验室与美国西北大学的研究人员联合推出了一个创新的评测框架——Codev-Bench。这个基于真实业务场景的评测集合,旨在从开发者的角度出发,为代码自动补全任务提供更为细致和精准的评估。这一突破性成果,不仅响应了当前行业对高效评测工具的迫切需求,也为软件开发的未来提供了重要参考。 Codev-Bench的 ...
编辑:LRST 【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型 ...
IT之家 10 月 12 日消息,科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习 ...