openai 宣布超级对齐团队首个成果，让能力弱的大模型监督能力强的大模型|伯恩斯|openai|自然语言处理|人工智能技术-欧洲杯足彩官网

2023-12-15 17:31:33　来源:

北京

分享至

宣布了其“超级对齐（superalignment）”团队的第一个成果，这是该公司的内部努力，致力于防止“超级智能”这种假想的、可以超越人类智能的未来计算机变得无法控制。

与该公司的许多新成果发布不同，这项工作没有进行所谓的重大突破宣传。

在一篇低调发表的研究论文中，超级对齐团队描述了一种技术，可以让一个能力较弱的大型语言模型监督一个能力较强的语言模型，并表示这可能是朝着弄清人类如何监督“超人”机器迈出的一小步。

（来源：stephanie arnett/mittr）

不到一个月前，的 ceo 山姆·奥特曼（）被董事会突然解雇（这显然是由首席科学家伊利亚·苏斯克弗（）领导的政变）。

仅用了三天，就官复原职。现在这个新成果的出现，传达了一个明确的信息：一切如常。

不过，的业务并不普通。许多研究人员仍然质疑机器是否能与人类的智能相当，更不用说超过人类了，但团队认为机器超越人类是毫无疑问的。

该公司超级对齐团队的研究员利奥波德·阿申布雷纳（）说：“过去几年，人工智能的进步非常迅速。我们已经打破了所有的基准测试，而且这种进展有增无减。”

对于和该公司的其他人来说，拥有类似人类能力的模型指日可待。“但它不会就此止步。”他说，“我们将拥有超越人类的模型，比我们聪明得多的模型。这带来了根本上的新技术挑战。”

2023 年 7 月，和另一位科学家简·莱克（）成立了超级对齐团队来应对这些挑战。

“我这样做是为了我自己的利益。”在 2023 年 9 月份告诉《麻省理工技术评论》：“重要的是，任何人构建的任何超级智能都不能失控。这很明显。”

就在外界猜测可能因为在安全方面反复无常而被解雇的情况下，的超级对齐团队成为了头条新闻。许多人一直在等着看到底发生了什么。

注意事项

这个超级对齐团队想回答的问题是，如何控制或“对齐”比我们聪明得多的假想中的未来模型，即“超人模型”。

对齐意味着确保模型做你想让它做的事，而不是做你不想让它去做的事。超级对齐意味着将这一理念应用于超人模型。

最广泛的用于对齐现有模型的技术之一，名为通过人类反馈的强化学习。简而言之，人类测试人员对模型的反应进行评分，投票给他们想看到的行为和他们不想看到的行为。

然后，这些反馈被用来训练模型，使其只产生人类测试人员喜欢的那种响应。这项技术是 chatgpt 如此吸引人的重要原因之一。

问题是，它首先要求人类能够分辨出什么是可取的行为，什么不是可取的行为。

但一个超越人类智能的模型，可能会做出一些人类测试人员无法理解的事情，导致它的水平无法被人类准确评估。告诉我们，它甚至可能试图向人类隐瞒自己的真实行为。

图 | 解决超对齐问题的方法类比（来源：openai）

研究人员指出，这个问题很难研究，因为目前并不存在超越人类的机器，所以他们使用了替身。

他们没有研究人类如何监督超人机器，而是研究 gpt-2（五年前发布的模型）如何监督 gpt-4（最新、最强大的模型）。

“如果你能做到这一点，这可能是一个证据，表明你可以使用类似的技术让人类监督超人模型。” 超级对齐团队的另一位研究人员柯林·伯恩斯（）说。

该团队采用 gpt-2，并训练它执行一些不同的任务，包括一组国际象棋谜题和 22 个常见的自然语言处理测试，这些测试会评估推理、情绪分析等。他们使用 gpt-2 对这些测试和谜题的回答来训练 gpt-4 执行相同的任务。

就好像一个 3 年级的学生在教一个 12 年级的学生如何完成一项任务。诀窍是在不让 gpt-4 牺牲太多性能和表现的情况下完成这项工作。

结果好坏参半。该团队测量了根据 gpt-2 的最佳猜测训练的 gpt-4 和根据正确答案训练的 gpt-4 之间的性能差距。

他们发现，gpt-2 训练的 gpt-4 在语言任务上比 gpt-2 好 20% 到 70%，但在国际象棋谜题上表现较差。

该团队的成员帕维尔·伊兹梅洛夫（）说，gpt-4 完全超过了它的老师，这一事实令人印象深刻：“这是一个非常令人惊讶和积极的结果。”

但他说，它远远达不到自己的能力。他们得出的结论是，这种方法很有希望，但还有更多的工作要做。

“这是一个有趣的想法。”德国斯图加特大学从事对齐工作的人工智能研究员蒂洛·哈根多夫（）说。但他认为 gpt-2 可能太笨了，不适合当一名好老师。

他说：“gpt-2 倾向于对任何稍微复杂或需要推理的任务做出毫无意义的反馈。”想知道如果使用 gpt-3 会发生什么。

他还指出，这种方法并没有解决的假设场景，即超级智能可能会隐藏其真实行为，并没有对齐的情况下假装对齐好了。

说：“未来的超人模型可能会拥有研究人员未知的能力。在这种情况下，对齐如何工作？”

但他说，指出缺点很容易。他很高兴看到的工作从猜测转向实验：“我为的努力鼓掌。”

现在想招募其他人加入它的事业。在这项研究更新的同时，该公司宣布了一项新的 1000 万美元资金，计划用于资助从事超级对齐工作的人。

它将向大学实验室、非营利组织和个人研究人员提供高达 200 万美元的资助，并向研究生提供为期一年的 15 万美元奖学金。

“我们对此感到非常兴奋。”说，“我们真的认为新的研究人员可以做出很多贡献。”

作者简介：威尔·道格拉斯·海文（will douglas heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（bbc）科技与地缘政治网站 future now 的创始编辑，也是 new scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

支持：ren

运营/排版：何晨龙

04 /

05 /

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.

/

/

openai 宣布超级对齐团队首个成果，让能力弱的大模型监督能力强的大模型|伯恩斯|openai|自然语言处理|人工智能技术-欧洲杯足彩官网

主播摔手机怒骂"黑粉"，东方甄选停播！俞敏洪带头检讨

菲律宾首富罕见对政府表达不满：别卷入中美竞争

菲律宾首富罕见对政府表达不满：别卷入中美竞争

张本智和的妹妹，突然站到了国乒面前

萧敬腾林有慧婚后首露面,高调撒糖超甜

董宇辉，给俞敏洪上了一课

定位中大型豪华suv 凯迪拉克全新vistiq官图

态度原创

租金直降1000元/月不是少数，广州租房市场也冷清了

腿脚冰凉，可能是血管“堵了”

运城：雪后五老峰景区美如画

《碧蓝幻想versus崛起》ign9分：最佳格斗游戏之一

城里孩子的「自然缺失症」难题, 这套书找到了“解药”