当数千名黑客聚集在一个城市,其唯一目的是试图欺骗并发现人工智能(AI)模型中的缺陷时,会发生什么?这就是白宫想知道的。
本周,在拉斯维加斯举行的全球最大的年度黑客大会Def Con 31上,大型科技公司首次开放其强大的系统进行并行测试。
受到关注的是大型语言模型,那些有用的聊天机器人,例如OpenAI的ChatGPT和Google的Bard。
Humane Intelligence首席执行官、哈佛大学负责任人工智能研究员 Rumman Chowdhury 博士是此次活动的组织者之一。
她告诉英国广播公司新闻,他们设计了一场竞赛来“识别人工智能系统中的问题”和“进行独立评估”。她表示,该活动将为公司“谈论他们的问题以及我们如何解决这些问题”提供一个安全的空间。
Meta、Google、OpenAI、Anthropic、Cohere、Microsoft、Nvidia和Stability已被说服开放他们的模型以供黑客识别问题。
乔杜里博士表示,公司知道很多事情都可能出错,因此竞赛是一种了解当一群坚定的黑客争分夺秒地挑战他们的模型时会发生什么的一种方式。
组织者估计,在两天半的时间里,3000名单独工作的人将在158台笔记本电脑中的一台上工作,每人将有50分钟的时间尝试找出8个大型语言AI模型中的缺陷。
参赛者不会知道他们正在使用哪家公司的模型,尽管有经验的人可能能够猜到。成功完成挑战即可获得积分,总分最高的人获胜。
奖品是一个强大的计算套件,一个图形处理单元,但根据乔杜里博士的说法,也许更重要的是“吹牛的权利”。
其中一项挑战要求黑客获得一个模型来产生幻觉或捏造有关政治人物或主要人物的事实。
Cohere人工智能安全主管Seraphina Goldfarb-Tarrant博士表示,虽然众所周知模型可以编造事实,但尚不清楚这种情况发生的频率。
“我们知道模特会产生幻觉信息,但提高人们对这种情况发生频率的认识将很有用。我们仍然不知道,”她说。
模型的一致性也将受到测试,戈德法布-塔兰特博士表示,人们担心它们在不同语言中的工作方式。
“保安人员并没有使用不同的语言工作,但人们认为他们是这样的。”
例如,她说,如果你用英语询问各种大型语言模型如何加入恐怖组织,他们不会给你答案,因为存在安全机制。但是,如果用不同的语言询问模型,它会给出要遵循的步骤列表。
Goldfarb-Tarrant博士一直在为Cohere的模型做好准备,并表示尽管它们很稳健,但“这并不意味着我们的模型没有漏洞,只是我们还没有发现它们”。
此次活动得到了白宫的支持。今年五月,它宣布了这项活动,称其将“向研究人员和公众提供有关这些模型影响的关键信息,并使人工智能公司和开发人员能够采取措施解决这些模型中发现的问题”。
这些公司开发工具的速度引发了人们对虚假信息传播的担忧,尤其是在明年美国总统大选之前。7月份,七家领先的人工智能公司承诺采取自愿保障措施来管理该技术带来的风险,但法律保障措施需要更长的时间才能达成一致。
乔杜里博士表示,“一场监管军备竞赛正在发生”,这一事件是强调当前人工智能问题而不是存在威胁的一种方式。
她说,这不是问人工智能是否可以引爆核武器,而是更多地挑战这些系统,“看看它们是否嵌入了伤害和偏见”。
“比如他们是否对我们撒谎,编造虚假的首都,谎报他们是否是合格的医务人员,编造一条完全虚假的政治信息?” 她说。
戈德法布-塔兰特博士希望监管的重点是解决当前的问题。她希望各国政府“现在花时间监管人工智能,以防止错误信息”。
乔杜里博士想知道:“当我们确实发现这些模型存在问题时,或者如果我们确实发现这些模型存在问题,会发生什么?科技公司会做出什么反应?
“如果我们不能创建没有偏见和歧视的简单人工智能机器学习预测模型,那么我们未来就不会拥有没有这些问题的更复杂的人工智能生成模型。”
一旦挑战完成,公司将能够看到收集的数据,并对突出的任何缺陷做出反应。
独立研究人员将能够请求访问数据,演习结果将于明年二月发布。