ギャンブルと量子物理学の出会い

By Intelligent Computing2023 年 8 月 23 日

科学者たちは、意思決定を強化するために光子の量子干渉を使用して、静的なマルチアームバンディット問題から動的な環境に発展する光子強化学習スキームを導入しました。彼らは、探索と活用のバランスをとりながら、すべての状態とアクションのペアの最適な Q 値を正確に学習することを目的として、5×5 グリッドの世界でテストされた、修正されたバンディット Q 学習アルゴリズムを開発しました。

ギャンブラーはどのようにしてスロットマシンの列から賞金を最大化するのでしょうか? この質問は、「エージェント」が報酬を獲得するための選択を行う強化学習の一般的なタスクである「多腕バンディット問題」を引き起こしました。最近、東京大学の新川宏明氏が率いる国際研究チームは、静的なバンディット問題からより複雑な動的な設定に移行する高度な光子強化学習手法を導入しました。彼らの発見は最近、雑誌「Intelligent Computing」に掲載されました。

このスキームの成功は、学習の質を向上させるフォトニックシステムとそれをサポートするアルゴリズムの両方にかかっています。「潜在的なフォトニック実装」に注目して、著者らは修正されたバンディット Q 学習アルゴリズムを開発し、数値シミュレーションを通じてその有効性を検証しました。彼らはまた、複数のエージェントが同時に動作する並列アーキテクチャでアルゴリズムをテストし、並列学習プロセスを加速する鍵は、光子の量子干渉を利用して矛盾する決定を回避することであることを発見しました。

光子の量子干渉を利用することはこの分野では新しいことではないが、著者らはこの研究が「光子による協調的意思決定の概念をQ学習と結び付け、それを動的環境に適用した最初のもの」であると信じている。強化学習問題は通常、エージェントのアクションに応じて変化する動的環境に設定されるため、バンディット問題の静的環境よりも複雑です。

エージェントは黒い矢印で示された 4 つのアクションのうち 1 つを選択し、報酬を受け取り、次のセルに進みます。エージェントが 2 つの特別なセル A または B のいずれかに到着すると、報酬は大きくなり、エージェントは赤い矢印で示すように別のセルにジャンプします。クレジット: 新川宏明他

この研究は、さまざまな報酬を保持するセルの集合であるグリッド世界を対象としています。各エージェントは上下左右に移動し、現在の移動と位置に基づいて報酬を得ることができます。この環境では、エージェントの次の動きは現在の動きと位置によって完全に決定されます。

この研究のシミュレーションでは 5 × 5 セルグリッドを使用します。各セルは「状態」と呼ばれ、各タイムステップでエージェントが行うすべての動きは「アクション」と呼ばれ、エージェントが各状態で特定のアクションをどのように選択するかを決定するルールは「ポリシー」と呼ばれます。意思決定プロセスはバンディット問題のシナリオとして設計されており、各状態とアクションのペアがスロットマシンとみなされ、Q 値 (状態とアクションのペアの値) の変化が報酬と見なされます。

一般に報酬を最大化するための最適なパスを見つけることに重点を置く基本的な Q 学習アルゴリズムとは異なり、修正されたバンディット Q 学習アルゴリズムは、環境全体のすべての状態とアクションのペアの最適な Q 値を効率的かつ正確に学習することを目的としています。したがって、エージェントは、学習を高速化するために高い値を持つよく知られたペアを「活用」することと、より高い値の可能性があるために頻繁に使用されないペアを「探索する」ことの間で適切なバランスを保つことが重要です。この種のバランス調整に優れた人気モデルであるソフトマックスアルゴリズムがポリシーとして使用されます。

著者らの将来の優先事項は、少なくとも 3 人のエージェントの間で競合のない意思決定をサポートするフォトニックシステムを設計することであり、提案されたスキームにこのシステムが追加されることで、エージェントが競合する意思決定を回避できるようになることを期待しています。一方、彼らはエージェントが継続的に行動できるようにするアルゴリズムを開発し、バンディット Q 学習アルゴリズムをより複雑な強化学習タスクに適用することを計画しています。

ブログ