Bench - 搜索 News

13 天

在当今快速发展的软件开发领域，代码自动补全工具正在逐渐改变开发者的工作模式。最近，阿里巴巴通义实验室与美国西北大学的研究人员联合推出了一个创新的评测框架——Codev-Bench。这个基于真实业务场景的评测集合，旨在从开发者的角度出发，为代码自动补全任务提供更为细致和精准的评估。这一突破性成果，不仅响应了当前行业对高效评测工具的迫切需求，也为软件开发的未来提供了重要参考。 Codev-Bench的 ...

13 天

阿里通义新推Codev-Bench：重塑代码补全任务评估标准

近日，由阿里巴巴通义实验室与美国西北大学的研究团队共同推出的Codev-Bench评估框架，引起了业界的广泛关注。该框架专注于提升代码自动补全工具的性能评估，旨在更加准确地反映开发者在实际编码过程中的需求与期望，具有深远的行业意义。

新智元 on MSN10 天

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

编辑：LRST 【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型 ...

来自MSN1 个月

首个 AI Kaggle 特级大师诞生，OpenAI 的o1-preview夺 7 金封王

IT之家 10 月 12 日消息，科技媒体 The Decoder 昨日（10 月 11 日）发布博文，报道称 OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果