Whisk(ウィスク)って? モデル×背景×スタイルで作り出す新しいアート
Whiskは、AIを使って画像や動画を生成するツール。特徴的なのは、画像を「モデル」「背景」「スタイル」という3つの要素に分けて、それらを組み合わせることで新しい絵を作り出す点。つまり、ただの画像生成ではなく、自分が思う「組み合わせ」を試せるというわけです。
また、このトップビジュアルのように、作った画像をアニメーションにすることもできますよ。
実験パート:Whiskで試す
Whiskを使って、自分の描いた絵を組み合わせて生成したら、どんな絵ができるのか?
狙いは、最近よく描いてるスタイル――色やタッチで人や物が描かれているけど細部はあまり明確でない――そういうタイプの絵が、AIで再現できるかどうか。
で、実験の結果はトップに出してあるから、「ああ、そんな感じか」って思ってもらえるかもしれませんが…。
実験1:人物画、風景、バイクの絵でスタート
Whiskでは、画像を「モデル」「背景」「スタイル」って3つの要素に分けて読み込ませます。
まず、自分の絵を3枚読み込ませてみました。
「モデル」に人物画、「背景」は風景画、「スタイル」はバイクの絵を当てはめてみました。



イメージとしては、バイクの絵みたいなタッチで描かれた人の顔が、風景と馴染んで溶け込んでる感じの絵。…そんなのができたらOK、と。
そして、プロンプトも入れます。「抽象画とも具象画ともつかない筆のタッチが生々しく残る絵画的スタイル。モデルと背景との境目はあえてはっきりさせない構成の画像。」
これを英語に訳して、ペースト。そして、生成。
Whiskは1回で2つ絵を出してくれるんだけど、まあ…うん、見ての通りです。
確かに、人物の顔が風景を背景に描かれています。
つまり「モデル」と「背景」は指示通り。
「スタイル」については、バイクの絵のタッチが全体に反映されると思っていたけど、顔の部分的なタッチがそうなのだろうか?

しかーし。「境目を曖昧に」って言ってるのに、このくっきり感(笑)
え、こっちの方が見やすい? まあ、そうかもしれないけど、そういう話じゃないんだよな〜。
でもまあ、よく見てみると、元絵の要素はちゃんと反映されています。
たとえば顔の左が緑、右が赤っていうのもそのままだし、あごのあたりの色の帯も、青と赤でちゃんと判断されてる。白い線で輪郭や目鼻を描いてるのも、見返してみると「なるほどな」って思う。背景の山も、描き方はよくあるイラスト風だけど、色づかいは元絵に即している。
実験2:「スタイル」を抽象画にしてみた
このままだと、タッチを絵全体に適用してくれなさそうなので、こんな抽象画を用意しましたよ。

「スタイル」をこの抽象画に変えてみた結果が下の絵。背景の山にはタッチが反映されていません。人型の輪郭の内側では、アゴから首にかけて色をタッチで塗ったような筆触表現になったけど、構造的な変化とは言えず、結局大きな変化はないままです。

実験3:「背景」「スタイル」を抽象画にしてみた
今度は「背景」と「スタイル」を両方抽象にしてみたら、背景がブラシで塗ったような色面になったのは当然ですが。しかし顔がなぜか立体的に。ひょっとしてタッチを使って立体的な顔を描いたってことなのかな?

実験4:すべてを抽象画に変更したらどうなる?
そして、「モデル」「背景」「スタイル」をぜんぶ抽象画にしたら、さすがに形はなくなって、ただいろんな色をランダムに塗りました、みたいな画面になった。これはあたりまえですね。

実験5:バイクの画像を「モデル」に使ってみた
そこから「モデル」をバイクの画像にしてみたら、ちょっとリアル寄りのバイクに乗ったおじさんが出てきた。「スタイル」はどうなった?Whisk、どうやら「これはちょっと下手だな」とか思って、補正してくれてるのかもしれない。服やバイクの色味は元絵に合ってる。ここまでやるならバイクはW650を再現して欲しかったね。

実験6:「モデル」「背景」「スタイル」すべてを人物画にした結果
また別の試し方。全部の要素を、最初に使った顔の絵にしてみたら、こんな仕上がりに。
なんていうか、平面的で、ポップな、ちょっとピカソっぽい鼻の絵が生成されました。
うーむ。あの顔の絵の解釈がコレってこと?

生成される画像を決めるカギ
実はWhiskでは「モデル」「背景」「スタイル」用に画像をアップロードすると同時に画像のプロンプトが作られます。

上の画面の黄色いエリアの「モデル」画像の赤丸内のボタンを押すと、下画像のような画面になって、画像下に書かれているテキストが読み込んだ画像を言語化した内容というわけです。

ダウンロードして見ていただくとわかりますが、同じ画像のプロンプトで あっても「モデル」「背景」「スタイル」のどこで使用されているかで内容が違います。
生成される画像は、このプロンプトによって規定されることで、ある振り幅の中で一定の結果が出るようになっています。
このプロンプトを自分で書き換えることもできますが、絵画的スタイルで思い通りにコントロールできるかと言うとそれはかなり難しいです。
試してみましたが、文章がどのような絵に対応するのかがよくわからないのです。例えば今回の顔の場合だと、平面的でポップな感じの絵と立体的な顔の表現になるときの違いが判断できないんですね。
まとめ
…うん、Whiskって、なかなか思い通りにはいかないね。
そこが面白いっちゃ面白いけど。
Whisk自体、現状はまだ実験的なサービスという位置付けのようです。
今のところ、なかなか思い通りの結果が出るわけではないので、逆にそれを楽しみながら使うのがコツだと思いました。
みなさんもAIの力を借りて、思いがけないアートを作り出してみてください。
補足
今回の企画では、わりとレアな個人的なテイストが生成AIでできるのか?というわりと無茶振りをしています。
Whiskの名誉のために言っておくと、需要の多い写真やリアル系、説明系のイラストであれば、ずっと思い通りの画像が生成されるはずです。
また、このトピックでは具体的に紹介していませんが、アニメーションについては、特にプロンプトを入れなくても高精度の動画が楽しめます。8秒のアニメーションは他の多数のツールに比べて長尺ですし、何より無料で使えるのでオススメです。
Whiskのサイトはこちらです:
https://labs.google/fx/ja/tools/whisk/project
Whiskで写真を使った作例もあります:‹
「Whisk(ウィスク)使ってみたら…雲が潜水艦になって通り抜けた」