開発者コメントきたで (issue #204)
サポーターは今後に期待できそうかな?

以下超意訳

ざっくり言うと、静止画像でちゃんと復元できないなら動画復元も意味ない
SD1.5は完璧じゃないけど、まずは単一フレームのモデルから始めて、あとで時間方向の仕組みを足して動画化していくのが現実的な流れ
あとSD1.5も完全に適当に生成してるわけじゃなくて、入力(モザイク)をガイドにして徐々にディテールを足してる
検出モデルにはちょっと驚いてる。静止画像だけで学習されてて時間的な要素ないし、正直それでいいの?って感じ
自分もladaappも、複数フレームまとめて学習させたりはしてない
手動マスクも一応考えたけど、今はそこに時間かけるつもりはないかな