AIと最適化の融合:AIアシスト型最適化戦略

2025年9月に出版された下記論文について、解説します。末尾には、忘備録の意味を兼ねて、本研究のきっかけなども書いておきました。

Masahiro Yukawa and Isao Yamada, ``Monotone Lipschitz-Gradient Denoiser: Explainability of Operator Regularization Approaches Free From Lipschitz Constant Control,'' IEEE Trans. Signal Processing, vol.73, pp.3378--3393, 2025.


最適化とAI(ニューラルネットワーク)を交互に繰り返すことによって、最適化アルゴリズムのみ実行する場合と比べて、推定精度を向上させることができます。このように最適化とAIを融合したアプローチに理論的保証を与え、間違えた答えが出力された場合の原因を特定できるようにすること、それだけでなく、高い推定精度を達成すること、ネットワークの学習にかかる時間を短縮することを目指しています。


リプシッツ定数は、ニューラルネットワークの入出力関係を表す関数の傾きの最大値だと思ってください。上図の画像は、傾きが急なところがあると、入力(横軸の値)が少し変わっただけで出力(縦軸の値)が大きく変化するので、摂動に対して敏感になってしまうことを説明しています。(左の画像はニューラルネットワークが正しく識別できる画像、真ん中はそれに対して加える摂動(微小なノイズ)、右の画像は摂動が加わったことにより、ニューラルネットワークが正しく識別できない画像を表しています。)しかし、天秤が表すように、「精度」と「摂動に対する脆弱性」の間にはトレードオフがあり、程よいリプシッツ定数が望ましいと考えられます。以下で説明しているように、本研究では、理論上、リプシッツ定数に制約が必要ないアプローチを提案しています。



「AIと最適化の融合」で説明したアプローチは、具体的には、PnP-FBS法の式(上図)で与えられます。写像Tが、AI(ニューラルネットワーク)を表わします。本研究では、PnP-FBS法の反復式が、何かを最適化(何らかの目的関数を最小化)しているのか、最適化しているのであれば、その目的関数と写像Tの関係性はどうなっているのか、という問いに対して、一つの明快な答えを与えました。その答えを与えるためには、MoL-Gradデノイザ(単調リプシッツ連続勾配)の概念が必要でした。これが、弱凸性と呼ばれる良質な非凸性(非線形性)を持つ関数の近接写像の特徴付けを与えることを示したことが、問題解決の鍵になりました。同手法の収束に関する先行研究は複数ありますが、リプシッツ定数に制約のない収束定理は、多分、世界初だと思います。(リプシッツ定数に対する制約が強すぎると、一般に、推定精度が犠牲になってしまうことは「機械学習とリプシッツ定数」のところで述べたとおりです。)

画像復元問題に応用した結果です。リプリッツ定数を1以下に制限する既存法と比較して、屋根の模様が制度よく復元できていることが確認できます。このことから、リプシッツ定数の制約を取り払った提案法の有効性が確認できます。(正確には、リプシッツ定数を制限しなくても収束を保証できるのが、本研究の強みです。)

研究プロジェクト
1. 単調リプシッツ連続勾配に基づくAIアシスト型最適化戦略
Masahiro Yukawa and Isao Yamada, ``Monotone Lipschitz-Gradient Denoiser: Explainability of Operator Regularization Approaches Free From Lipschitz Constant Control,'' IEEE Trans. Signal Processing, vol.73, pp.3378--3393, 2025.

2. 多層ニューラルネットワークによる単調リプシッツ連続勾配と画像復元問題への応用
Haruya Shimizu and Masahiro Yukawa, ``Plugging Weight-tying Nonnegative Neural Network into Proximal Splitting Method: Architecture for Guaranteeing Convergence to Optimal Point,'' submitted for publication, arXiv:2510.21421.

3. 不連続Shrinkage作用素から(AIアシスト型連続最適化戦略に利用可能な)MoL-Gradデノイザを生成する方法
Masahiro Yukawa, ``Continuous Relaxation of Discontinuous Shrinkage Operator: Proximal Inclusion and Conversion,'' IEEE Open Journal of Signal Processing, vol.6, pp.753--767, 2025.

4. 二つの近接作用素の外分によって生成されるMoL-Gradデノイザとそれによる機能強化
Kyohei Suzuki and Masahiro Yukawa, ``External Division of Two Proximity Operators --- Part I: Debiased Feature Grouping,'' IEEE Trans. Signal Processing, vol.73, pp.--, 2025, accepted for publication.
Kyohei Suzuki and Masahiro Yukawa, ``External Division of Two Proximity Operators --- Part II: Generalization and Properties,'' IEEE Trans. Signal Processing, vol.73, pp.--, 2025, accepted for publication.

解説(日本語)
1. RAMP数理最適化シンポジウム 招待講演 (予稿集 2025.10.29公開)
湯川正裕, ``Plugging Monotone Lipschitz-Gradient Denoiser into Proximal Splitting Algorithms: A Lipschitz Control Free Approach and Explainability,’' RAMP数理最適化シンポジウム論文集, pp. 11–32, 2025.(招待講演)

きっかけ

きっかけは、ある論文との出会いでした(文献[1])。2019年だったと思います。そこには、非凸関数の近接写像が使われていたので、初めはよくある「(下半連続な真)凸関数に対してwell-definedな近接写像を形式的に非凸関数に拡張してなんらかの性質(stationary point への収束など)を議論した論文」かと思ったのですが、本文にさっと目を通すと、非拡大写像の不動点近似を用いて、最適解への収束が示されており、予想が外れていたことが分かりました。具体的には、非凸関数が「弱凸性(凸関数から2次関数を減じた関数)」であれば、うまくパラメータを設定することで、近接勾配法の要領で非凸関数が正則化項として加えられたコスト関数を最適化できます。ここで頭に浮かんだのは、「逆に、最適解への収束を示すために、弱凸関数以外で、同様の議論ができるものはないだろうか?」という問いでした。 弱凸関数でない非凸関数で同様の議論ができないことが示されれば、近接勾配法タイプのアルゴリズムで最適解への収束保証ができる定式化を考えたければ、正則化項は、弱凸関数(凸関数を特別な場合として含む)の中から選べば良いでしょうということができます。

1. I. Bayram, ``On the convergence of the iterative shrinkage/thresholding algorithm with a weakly convex penalty,'' IEEE Transactions on Signal Processing, vol. 64, no. 6, pp. 1597–1608, 2016.

補足しておきますが、弱凸関数以外の場合でも、別のアルゴリズムで最適化できる可能性は、勿論、あります。とはいうものの、実応用を専門とする工学系研究者が収束の証明に労力と時間を割くことは、多くの場合、難しいだろうと勝手に考えています。他に時間をかけて考えるべき優先順位の高い問題が山積みなことが多いからです。そこで、上で述べたような提案ができたら有益かと思った次第です。社会に求められる大学教員の役割は、高い視点から分野を俯瞰し、先頭に立って、進むべき方向性を示すことだと認識しています。そういう意味では、数学、特に凸解析は、科学技術分野に横たわる広大なクラスの問題をシンプルな(抽象的な)形で表現することで、分野を俯瞰する視点を与えてくれる大変有難い学問だと思っています。目標としては、凸解析を原動力として情報系分野を俯瞰するための結果(定理)を示し、進むべき方向性を見つけていきたいと思っています。

本研究へ

さて、最初の問いに話を戻しますが、この問いの解決に一夏を費やしましたが、それ以降、考えるのを止めました。実は、この問題を考えていた翌年(2021年)に、凸解析分野の権威 Bauschke教授らによって、この問題が解決されていたことを後で知りました[2]。考えるのを止めた理由は、新しい数学的な概念を導入する必要性が見えてきたからであり、あれこれ考えた挙句、別の問題にシフトすることにしました。このシフトチェンジこそが、実は、後半部分「信号・画像処理との接点」へと繋がる鍵になっています。シフトした問題は、「与えられた写像Tがどんな性質を持てば、弱凸関数の近接写像になるのか?」というものです。実は、その答えが「Monotone Lipschitz-Gradient (MoL-Grad) denoiser」であること、つまり、写像Tが単調作用素であり、さらにリプシッツ連続な勾配として表現できることであることを示しました。これは、「Tがリプシッツ連続であり、さらにある凸関数の勾配として表現できる」と言い換えることもできます。この仮定は、最適化において重要な性質であると考えています。

2. H. H. Bauschke, W. M. Moursi, and X. Wang, “Generalized monotone operators and their averaged resolvents,” Math. Program., vol. 189, no. 55–74, 2021.

まず、凸関数の勾配として表現できるという性質は、写像Tを何らかの関数の最小解と結びつけるために重要です。「Tが凸関数の劣勾配写像のselection」として表現できれば良いのではと思われるかもしれませんが、実は、MoL-Grad denoiserでは、Tの連続性も仮定されていますので、「Tが凸関数の劣勾配写像のselection」として表現できることは、結局、Tが凸関数の勾配として表現できることと等価になることが示せます。ちなみに、写像(mapping)や作用素(operator)ではなく、denoiser と呼んだのは、後述する「plug-and-play」に関する先行研究との関係性を示唆したかったからです。

そして、もう一つ、リプシッツ連続性は、勾配法に関連する(固定ステップサイズを用いた)凸最適化アルゴリズムなどの収束保証に用いられる重要な性質です。この条件を緩和することは可能ですが、diminishing ステップサイズ(0に漸近する数列)を用いるなど、収束保証のために工夫が必要であり、これは収束速度の低下を招くなど、様々な問題を引き起こす要因となります。この意味で、今回の研究で扱った問題に対して、MoL-Grad denoiser に行き着いたことは、ある意味で自然な結論であり、一つのマイルストーン的な役割を演じていくものと予想しています。

これによって、間接的ではありますが、弱凸関数の近接写像を考える重要性を示せたと思っています。ここで、本研究では、近接写像の定義に現れる最小化問題の対象となる関数の最小解が一意的に定まる場合に限定して「弱凸関数の近接写像」を定義していることを強調しておきます(論文中では、この点を明確にするために、s-prox と記しています)。最小解の一意性が重要であることは、論文中で明確な議論を与えていますので、参考いただければ幸いです。もう一度まとめると、最小化問題と写像Tを結びつける性質(凸関数の勾配として表現可能)と最適化アルゴリズムの収束保証のために有用な性質(Lipschitz 連続性)を持つものは、「弱凸関数の近接写像」に限られることを証明できたことになります(もちろん、その逆、つまり、弱凸関数の近接写像がこの2つの性質を持つことも同時に証明しています)。

信号・画像処理との接点

これで、きっかけから前半部分の説明が大体終わりました。この話が、偶然ですが、Plug-and-Play(PnP)法と呼ばれる画像処理の手法と結びつきました。これが後半のお話です。PnP法は、近接勾配法で用いられる近接写像を、雑音を低減するdenoiserで置き換えます。すると、経験的に、これまでの手法を凌駕する性能が得られることが多数報告されています。この「置き換え」による手法がどうしてうまくいくのかを解明するために、多くの研究がなされてきました。しかし、何を最適化しているのかについて、限定的なことしか分かっていませんでした。今回の論文では、Tがある凸関数ψ(プサイと読みます)の勾配として表現されるMoL-Grad denoiser であれば、近接写像をTで置き換えた近接勾配法ライクな方法が、拡張した意味での近接勾配法になっており、ψを用いて与えられるimplicit regularizer(正則化項)を含むコスト関数の最小解に収束する点列を生成することを明らかにしています。ここでポイントとなるのは、コスト関数が写像Tから導かれている点です。通常の最適化では、コスト関数が与えられ、それを最小化するアルゴリズムを構築しますが、今回の研究はその逆で、アルゴリズムが先に与えられ、それによって最適化されるコスト関数を導出していることになります。

この方法論は、近接勾配法だけでなく、広いクラスの Operator Splitting アルゴリズムに適用できることも論文中で述べています。その一例として、主双対分離法(primal dual splitting method)に適用した場合を議論しています。この場合には、近接勾配法の時と同様に、近接写像をTに置き換えた主双対分離法によって最適化されるコスト関数を明らかにしています。

最後に

以上、長くなりましたが、ポイントを書いてみました(自分でも忘れないように)。興味を持っていただけたら嬉しいです。最終的に結果(Theorem 1)はとてもとてもシンプルなものとなり、結構気に入っています。凸解析で知られる結果を使えば証明は短くできますが、できるだけ初見でも雰囲気の分かる証明を掲載しています(self-containedとまでいうと言い過ぎかもしれないですが)。ここに至るまで、長い年月がかかりましたが、これを読むのは1日もかからないと思います。この論文に収められなかった結果は、別に議論したいと考えています。

戻る