04

2025

-

10

Nature:OpenAI 的“深度研究”工具让科学家们惊喜

来源:九游会俱乐部    发布时间:2025-04-10 02:10:07


  科技巨头 OpenAI 推出了一款名为“深度研究”的付费访问工具,该工具将来自数十或数百个网站的信息综合成一份长达数页的引用报告。该工具效仿了谷歌 12 月发布的类似工具,充当个人助理,在数十分钟内完成相当于数小时的工作。

  许多尝试过它的科学家对它撰写文献概要或完整评论论文甚至发现知识空白的能力印象非常深刻。其他人则不那么热情。“如果是人类做这件事,我会想:这需要做很多工作,”加州莫菲特菲尔德湾区环境研究所的数据科学家凯尔·卡巴萨雷斯 (Kyle Kabasares) 在在线视频评论中说。

  科学家们纷纷涌向 DeepSeek:他们怎么样去使用这一轰动一时的 AI 模型

  这些公司将这些工具作为迈向可处理复杂任务的人工智能“代理”的一步。观察的人说,OpenAI 于 2 月 2 日发布的深度研究工具之所以引人注目,是因为它结合了o3 大型语言模型(LLM) 改进的推理能力和搜索互联网的能力。谷歌表示,其深度研究工具目前基于 Gemini 1.5 Pro,而不是其领先的推理模型 2.0 Flash Thinking。

  许多用户对这两款工具印象非常深刻。加州旧金山初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 表示,谷歌的产品“真正利用了谷歌在搜索和计算方面的优势”,让用户快速了解某个主题,而 o3 的推理能力则为 OpenAI 的报告增添了复杂性。

  康涅狄格州法明顿杰克逊实验室的免疫学家 Derya Unutmaz 可以免费使用 OpenAI 授予的 ChatGPT Pro 进行医学研究,他表示 OpenAI 的深度研究报告“非常令人印象非常深刻”、“让人信服”,与已发表的评论论文一样好甚至更好。“我认为撰写评论已经过时了。”

  怀特预计,这样的AI系统可用于更新人工撰写的评论。“权威评论不可能每 6 个月由 [人工] 更新一次。”

  但许多人警告称,所有基于 LLM 的工具有时都不准确或具有误导性。OpenAI 的网站承认,其工具“尚处于早期阶段,存在局限性”:它可能会引用错误、产生幻觉、无法区分权威信息和谣言,也无法准确传达其不确定性。该公司预计,随着使用次数和时间的增加,这样一些问题会得到一定的改善。谷歌的 Deep Research 有一个免责声明,上面写着“Gemini 可能会出错,因此请仔细检查”。

  德国埃尔朗根马克斯普朗克光科学研究所AI科学家实验室负责人马里奥·克伦指出,这些工具并不是按照科学家通常所说的方式来进行“研究” 。他说,科学家们花费数年时间研究一个主题并提出新的想法。“这种能力尚未被[人工智能]证明,”克伦说,并补充道,“也许很快就会有,但现在谁也不知道。”

  OpenAI 已经对其深度研究工具进行了测试。例如,它在人类的最后考试 (HLE) 中表现良好,这是一项包含 3,000 个问题的基准测试,涵盖从语言学到科学等所有的领域的专家级知识,并且对于法学硕士来说,它比其他现在被人工智能超越的常见测试(如 GPQA)要难得多。OpenAI 的产品在 HLE 的纯文本问题中以 26.6% 的成绩名列榜首。

  该公司还根据 GAIA 基准1测试了其系统,该基准于 2023 年开发,用于测试使用多步推理和网页浏览来回答问题的人工智能。公共 GAIA 排行榜由来自全球公司 H2O.ai 的代理领衔,该代理由旧金山公司 Anthropic 的 Claude 3.5 Sonnet 提供支持,最高级别得分为 40.82%。OpenAI 的深度研究得分为 58.03%。

  谷歌表示,目前还没有关于该工具的基准测试结果能分享。怀特表示,OpenAI 选择的基准测试依赖于具有简短、可验证答案的问题,而这样一些问题可能不太适合生成长答案且没明确正确答案的工具。“我认为这些基准测试将会逐渐消失,取而代之的是功能性基准测试,”他说,例如人类对文章质量和实用性的评估。例如,怀特之前曾撰写过一篇论文,其中人类专家对从AI编写的和人类编写的式科学主题摘要中摘取的陈述进行盲目评分;人工智能赢了2。

  这两款产品都有其他限制。它们都无法提取付费信息,这中间还包括许多科学论文。这是“一个重大问题”,支持开放科学的 Unutmaz 说。“获取这些知识比以往任何一个时间里都重要,”他说。一些科学家在网上论坛上提议,他们应该能够将他们的期刊密码插入 AI 工具,并推测使用 OpenAI 的新“操作员”代理来做到这一点。OpenAI 的首席执行官 Sam Altman 在推特上回应道:“我们确实需要在这里想出办法。”

  爱思唯尔(Elsevier):洞察 2024:科研人员对AI的态度报告

  前瞻:2025 年人形机器人产业高质量发展蓝皮书 - 人形机器人量产及商业化关键挑战

  美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)

  中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

  兰德公司 2024 人工智能项目失败的五大最终的原因及其成功之道 - 避免 AI 的反模式 英文版

  Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版

  兰德公司 2024 AI和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版

  Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版

  电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209

  NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习

  Chainalysis:2024 年密码货币地理报告密码货币采用的区域趋势分析

  经合组织 成年人是不是具备在一直在变化的世界中生存所需的技能 199 页报告

  《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述

  DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告

  世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版

  经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展的新趋势 英文版

  科尔尼 2024 年全球AI评估 AIA 报告追求更高层次的成熟度规模化与影响力英文版

  国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版

  MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119

  男子转给小三287万原配追回268万(深圳新闻网) 【 齐鲁晚报·齐鲁壹点旗下短视频产品 】

  新华社北京4月7日电(记者阚静文)“住手!”“抗争”“我们不想要这样的美国!”,超1000场,逾50万人参与……美国总统特朗普日前签署最新的“对等关税”行政令,加之美国政府此前出台的一系列政策,引发美国国内及欧洲强烈抗议。连日来,多地民众走上街头,用行动表达不满与愤怒。

  护万家灯火 铸无畏警魂——追忆原天津市滨海新区公安局刑侦支队一大队副大队长许喆

  新华社天津4月3日电 题:护万家灯火 铸无畏警魂——追忆原天津市滨海新区公安局刑侦支队一大队副大队长许喆新华社记者黄江林这是许喆生前的肖像照片(资料照片)。

  美国总统特朗普近期频频表态,称美国政府4月2日起将对全球征收“对等关税”,并针对特定行业征收额外关税。此举引发广泛批评。特朗普表示,目前关税计划已经制定。白宫新闻秘书莱维特称,该计划不会包含任何豁免条款。

  4月7日湖南长沙,“甲亢哥”长沙之旅,登顶国金中心大楼俯瞰全城,灯火里的中国Beautiful!

  喜茶被投诉“23元一杯奶茶30块冰”店员回应:冰多因为有青稞(九派新闻)#喜茶#冰块

  美元!特朗普关税政策致全球首富马斯克资产缩水,今年已累计损失1300亿美元

  当地时间4月2日,美国总统特朗普在白宫宣布对贸易伙伴征收所谓的“对等关税”措施。其中,不断讨好美国“倚美谋独”的当局被狠狠打脸——台湾地区被加征32%关税。靴子落地,台湾民众怒斥:台积电白给了,武器白买了,结果还被美国征收32%高关税。

  近日,深圳莲塘海关在口岸监管中破获一起罕见的濒危野生动物走私案两名女性旅客试图通过人体绑藏方式将28只国际公约明令保护的“南美陆龟”偷运入境这是莲塘海关今年查获的又一起新型濒危物种走私案毕云霞深圳莲塘海关旅检一科副科长我们在对当天进境的旅客进行监管时,发现有2名穿着黑色长裙的女性

  #春日生活打卡季#据香港《南华早报》报道,日前在戈壁沙漠进行了一场“大规模反导试验”,这次试验的最大的目的是测试我军全新的双波段相控阵雷达系统的性能。