MoL-Grad Denoiser (単調性を持つリプシッツ連続勾配デノイザ)と最適化

2024年6月7日にarXivに公開された下記論文について、以下、きっかけから概要までを記しておきたいと思います。

Masahiro Yukawa, Isao Yamada, ``Monotone Lipschitz-Gradient Denoiser: Explainability of Operator Regularization Approaches and Convergence to Optimal Point'', arXiv:2406.04676 [math.OC] https://arxiv.org/abs/2406.04676

きっかけ

きっかけは、ある論文との出会いでした(文献[1])。2019年だったと思います。そこには、非凸間数の近接写像が使われていたので、初めはよくある「(下半連続な真)凸関数に対してwell-definedな近接写像を形式的に非凸間数に拡張してなんらかの性質(stationary point への収束など)を議論した論文」かと思ったのですが、本文にさっと目を通すと、非拡大写像の不動点近似を用いて、最適解への収束が示されており、予想が外れていたことが分かりました。具体的には、非凸関数が「弱凸性(凸関数から2次関数を減じた関数)」であれば、うまくパラメータを設定することで、近接勾配法の要領で非凸関数が正則化項として加えられたコスト関数を最適化できます。ここで頭に浮かんだのは、「逆に、最適解への収束を示すために、弱凸関数以外で、同様の議論ができるものはないだろうか?」という問いでした。この逆が示れば、最適解への収束保証のあるアルゴリズムで扱える定式化を考えたかったら、正則化項は、弱凸関数(凸関数を特別な場合として含む)の中から選べば良いでしょうということができます。

1. I. Bayram, ``On the convergence of the iterative shrinkage/thresholding algorithm with a weakly convex penalty,'' IEEE Transactions on Signal Processing, vol. 64, no. 6, pp. 1597–1608, 2016.

補足しておきますが、弱凸関数以外の場合でも、別のアルゴリズムで最適化できる可能性はありますが、実応用を専門とする研究者が収束の証明に時間を割くことは、多くの場合、難しいと考えています。他に時間を割いて考えるべき優先順位の高い問題が山積みなことが多いからです。そこで、このような提案ができたら有益かと思ったわけです。社会に求められる大学教員の役割は、高い視点から分野を俯瞰し、先頭に立って、進むべき方向性を示すことだと認識しています。そういう意味では、数学、特に凸解析は、科学技術分野に横たわる広大なクラスの問題をシンプルな(抽象的な)形で表現することで、分野を俯瞰する視点を与えてくれる大変有難い学問だと思っています。目標としては、凸解析を原動力として情報系分野を俯瞰するための結果(定理)を示し、進むべき方向性を見つけていきたいと思っています。

本研究へ

さて、最初の問いに話を戻しますが、この問いの解決に一夏を費やしましたが、それ以降、考えるのを止めました。実は、この問題を考えていた翌年(2021年)に、凸解析分野の権威 Bauschke教授らによって、この問題が解決されていたことを後で知りました[2]。考えるのを止めた理由は、新しい数学的な概念を導入する必要性が見えてきたからであり、あれこれ考えた挙句、別の問題にシフトすることにしました。このシフトチェンジこそが、実は、後半部分「信号・画像処理との接点」へと繋がる鍵になっています。シフトした問題は、「与えられた写像Tがどんな性質を持てば、弱凸関数の近接写像になるのか?」というものです。実は、その答えが「Monotone Lipschitz-Gradient (MoL-Grad) denoiser」であること、つまり、写像Tが単調作用素であり、さらにリプシッツ連続な勾配として表現できることであることを示しました。これは、「Tがリプシッツ連続であり、さらにある凸関数の勾配として表現できる」と言い換えることもできます。この仮定は、最適化において重要な性質であると考えています。

2. H. H. Bauschke, W. M. Moursi, and X. Wang, “Generalized monotone operators and their averaged resolvents,” Math. Program., vol. 189, no. 55–74, 2021.

まず、凸関数の勾配として表現できるという性質は、写像Tを何らかの関数の最小解と結びつけるために重要です。「Tが凸関数の劣勾配写像のselection」として表現できれば良いのではと思われるかもしれませんが、実は、MoL-Grad denoiserでは、Tの連続性も仮定されていますので、「Tが凸関数の劣勾配写像のselection」として表現できることは、結局、Tが凸関数の勾配として表現できることと等価になることが示せます。ちなみに、写像(mapping)や作用素(operator)ではなく、denoiser と呼んだのは、後述する「plug-and-play」に関する先行研究との関係性を示唆したかったからです。

そして、もう一つ、リプシッツ連続性は、勾配法に関連する(固定ステップサイズを用いた)凸最適化アルゴリズムなどの収束保証に用いられる重要な性質です。この条件を緩和することは可能ですが、diminishing ステップサイズ(0に漸近する数列)を用いるなど、収束保証のために工夫が必要であり、これは収束速度の低下を招くなど、様々な問題が生じる要因となります。この意味で、今回の研究で扱った問題に対して、MoL-Grad denoiser を考えたことは、ある意味、自然であり、一つのマイルストーン的な役割を演じていくものと予想しています。

これによって、間接的ではありますが、弱凸関数の近接写像を考える重要性を示せたと思っています。ここで、本研究では、近接写像の定義に現れる最小化問題の対象となる関数の最小解が一意的に定まる場合に限定して「弱凸関数の近接写像」を定義していることを強調しておきます(論文中では、この点を明確にするために、s-prox と記しています)。この点が重要であることは、論文中で明確な議論を与えていますので、参考いただければ幸いです。もう一度まとめると、最小化問題と写像Tを結びつける性質(凸関数の勾配として表現可能)と最適化アルゴリズムの収束保証のために有用な性質(Lipschitz 連続性)を持つものは、「弱凸関数の近接写像」に限られることを証明できたことになります(もちろん、その逆、つまり、弱凸関数の近接写像がこの2つの性質を持つことも同時に証明しています)。

信号・画像処理との接点

これで、きっかけから前半部分の説明が大体終わりました。この話が、偶然ですが、Plug-and-Play(PnP)法と呼ばれる画像処理の手法と結びつきました。これが後半のお話です。PnP法は、近接勾配法で用いられる近接写像を、雑音を低減するdenoiserで置き換えます。すると、経験的に、これまでの手法を凌駕する性能が得られることが多数報告されています。この「置き換え」による手法がどうしてうまくいくのかを解明するために、多くの研究がなされてきました。しかし、何を最適化しているのかについて、限定的なことしか分かっていませんでした。今回の論文では、Tがある凸関数ψ(プサイと読みます)の勾配として表現されるMoL-Grad denoiser であれば、近接写像をTで置き換えた近接勾配法ライクな方法が、拡張した意味での近接勾配法になっており、ψを用いて与えられるimplicit regularizer(正則化項)を含むコスト関数の最小解に収束する点列を生成することを明らかにしています。ここでポイントとなるのは、コスト関数が写像Tから導かれている点です。通常の最適化では、コスト関数が与えられ、それを最小化するアルゴリズムを構築しますが、今回の研究はその逆で、アルゴリズムが先に与えられ、それによって最適化されるコスト関数を導出していることになります。

この方法論は、近接勾配法だけでなく、広いクラスの Operator Splitting アルゴリズムに適用できることも論文中で述べています。その一例として、主双対分離法(primal dual splitting method)に適用した場合を議論しています。この場合には、近接勾配法の時と同様に、近接写像をTに置き換えた主双対分離法によって最適化されるコスト関数を明らかにしています。

最後に

以上、長くなりましたが、ポイントを書いてみました(自分でも忘れないように)。興味を持っていただけたら嬉しいです。最終的に結果(Theorem 1)はとてもとてもシンプルなものとなり、結構気に入っています。凸解析で知られる結果を使えば証明は短くできますが、できるだけ初見でも雰囲気の分かる証明を掲載しています(self-containedとまでいうと言い過ぎかもしれないですが)。ここに至るまで、長い年月がかかりましたが、これを読むのは1日もかからないと思います。この論文に収められなかった結果は、別に議論したいと考えています。

戻る