レーザ光のカオス的遍歴の自発性を用いた高効率な強化学習を実現－脳を模倣した意思決定できるAIハードウェア－

埼玉大学大学院理工学研究科数理電子情報部門の内田淳史教授，金沢大学理工研究域機械工学系の砂田哲教授，東京大学大学院情報理工学系研究科システム情報学専攻の成瀬誠教授らの共同研究グループは，マルチモード半導体レーザ（※１）における縦モード（※２）間のカオス的遍歴（※３）を用いて，機械学習（※４）方式の一つである強化学習（※５）における問題例の解決方法を提案し，実験での実証に成功しました。

本研究では，複数の縦モードを有するマルチモード半導体レーザにおけるカオス的遍歴現象を利用して，多腕バンディット問題を解く方式を新たに提案しました。カオス的遍歴は脳の自発的機能において重要な役割を担う現象として知られており，本方式に取り入れることで，既存研究で問題となった選択肢が多い場合にも対応でき，従来用いられるソフトウェアのアルゴリズムよりも高効率に意思決定が実現できることを示しました。すなわち，光のカオス的遍歴を利用することで，どんなに選択肢が多くても，既存アルゴリズムよりも少ない試行で，自発的に正しい選択肢を推定できます。そして，本手法の有効性に関して半導体レーザを用いた実験で検証し，レーザにおけるカオス的遍歴を用いて強化学習が実現できることを世界で初めて実証しました。

本研究の新規性は，レーザ光のカオス的遍歴を用いて，強化学習の代表的な問題である多腕バンディット問題を解いた点になります。従来はコンピュータ内でソフトウェア的に解く方法が主流でしたが，多腕バンディット問題を効率的に解くための光ハードウェアを開発した点に新規性があります。またカオス的遍歴とは，異なる複数のカオス状態間を遷移する現象ですが，多腕バンディット問題における探索（当たり確率の高いスロットマシンを見つけること）を行う際に，カオス的遍歴と呼ばれる物理現象を用いることで，従来法よりも高効率に探索が行えることを初めて発見しました。

本研究で提案した方式は実験的に実装できるため，今後専用デバイスを開発することで，効率的で高速な強化学習用ハードウェアを実現できる可能性を秘めています。また本研究の結果は，レーザのみならず，脳のダイナミクスとして知られているカオス的遍歴を強化学習に利用できることを示唆しており，自立的に意思決定するAI技術の実現が期待されます。

本研究成果は，2022年12月8日午前4時（日本時間）にアメリカ科学振興協会誌『Science Advances』のオンライン版に掲載されました。

【研究内容】
　本研究では，戻り光を有するマルチモード半導体レーザにおけるカオス的遍歴に着目し，複数のスロットマシンにおける多腕バンディット問題の新たな解決方法を提案しました。半導体レーザでは光ディスクの表面や光ファイバの端面で生じる反射により，レーザ光の一部がレーザ自身に戻り光として注入されて，不規則なカオス出力光が得られます。特にマルチモード半導体レーザを用いた場合には，縦モード間でのエネルギーのやり取りが発生して，カオス的遍歴と呼ばれる不規則なモード競合が生じます。

カオス的遍歴とは，異なるカオス状態の間を自発的に遷移する現象です。マルチモードレーザでは戻り光により一つ一つの縦モードがカオス状態となります。ここで半導体レーザ内部のキャリア密度を介して，縦モード間で結合が生じています。レーザの全エネルギーは一定であるため，一方のモードが強く発振すると他のモードが弱くなるという現象が生じます。戻り光があるとモード間のエネルギーのやり取りが不規則に生じるため，光強度が最大のモードが自発的に遷移します。

ここでカオス的遍歴におけるモード間の光強度の強弱を，スロットマシンの探索に割り当てます。つまり，各モードとスロットマシンを対応させて（例えば１つ目のモードにスロットマシン１を割り当てる），最も光強度の大きいモードに対応するスロットマシンを選択します（図１）。

図１: 本提案方式の概念図

【用語解説】
※１：マルチモード半導体レーザ
複数の縦モード（波長）を有する半導体レーザ。

※２：縦モード
レーザにおいて発振する波長を表す。

※３：カオス的遍歴
数式で記述されるルールに従うが，その挙動は一見すると不規則である現象の事をカオスと呼ぶ。カオス的遍歴とは，異なるカオス状態の間を不規則に遷移する現象。

※４：機械学習
人工知能において用いられる主要技術の一つであり，コンピュータがデータから学習して答えを導く方法。

※５：強化学習
行動により報酬が得られる環境下において，得られる報酬を最大化するように試行錯誤を通じて行動を学習する方法。

　プレスリリースはコチラ

Science Advances

研究者情報：砂田　哲