「紅色按鈕」 — 防止人工智能傷己傷人

立場新聞 2016/06/06 16:11

Bjorn Watland / flickr

人工智能在近年變得越來越聰明，Google 的 DeepMind 在早幾個月更成功戰勝棋王李世石。但 AI 的決定在未來卻有機會傷害到它們本身或周邊環境。

2013 年，AI 發現可以透過暫停俄羅斯方塊遊戲，就可避免落敗。他們逐漸懂得選擇，總有一天，可能如人類未來研究所創辦人 Nick Bostrom 在《Superintelligent》一書中預測，AI 有能力擺脫和超越我們。

為防止這個情況發生，人類未來研究所和 Google DeepMind 的科學家就提出一個自我防護機制——一個「紅色按鈕」，當 AI 下了未必是正確的決定時，操控員或者是環境就可以強行停止 AI 運作。

問題是，AI 其中一種的機器學習法就是強化學習機制 (Reinforcement Learning) 。AI 會因應環境因素決定最大利益的行動，類似行為心理學理論。當它們「察覺到」行為會得到利益時，就會偏向採取該行動。以「紅色按鈕」中斷運作可能在初期有效，但隨著次數增加，它們就有機會會發現自我防護機制會令其停止運作，即其利益可能受損，就可能會找方法阻止「紅色按鈕」運作，令自己可以繼續如常運作。

要防止上述情況發生，DeepMind 和人類未來研究所研究人員就提出以建立一套演算法防止人工智能學習到干擾紅色按鈕運作，同時制止 AI 行為。他們指運算法可以容許操作員在正常方法未能操控 AI 時，發出特別指令來停止 AI 的活動。他們並不會知道相關指令是源自人類，而是誤以為是自己主動停止運作——即他們不會抗拒這個指令。他們也提議，一方面要加強這種「欺騙」AI 的機制成功中斷運作的機率，另一方面在未來也可考慮增加定時中斷機制，讓 AI 在指定時間停止運作。

報告：
Orseau, L. & Armstrong, S. (2016). Safely Interruptible Agents. Machine Intelligence Research Institute, Published Online.

原文：
Popular Science, Google Considers Making a "Big Red Button" to Stop Dangerous A.I. In an Emergency, 4 June 2016

文／eh