表紙の写真が動き出した！AI動画生成はどこまで進化したのか？

近年、AIの進化は目覚ましく、静止画だった写真が自然に動き出す時代が到来している。
フェイク動画の問題で何かと話題になっているAI動画生成アプリGrokを使い、実際に写真を動かしてみた。

今回はあえてプロンプト（指示文）を一切入力せず、アプリ側に完全に生成を任せる形で試してみた。

プロンプトなしでもここまでできる

まず驚かされたのは、写真集の人物写真の完成度だ。
表情の変化や体の動きは比較的自然で、「写真がそのまま動画になった」と感じられる仕上がりになった。

特に、

などは、プロンプトなしとは思えないほど完成度が高い。

AI動画生成の技術が、すでに「誰でもそれなりの結果を得られる段階」に入っていることを実感した。

一方で、部族の肖像写真を動かした一部の動画には、明確な違和感が生じた。

腰部が過度に揺れるなど、どこかセクシーさを強調するような部族の肖像としては不自然な動きが自動的にされ、結果として意図しない身体表現が強調されているように見受けられた。

これらは制作者が意図した表現というよりも、動画生成アプリ側の生成傾向による可能性がある。多様な人物画像を学習した結果、AIが「人の身体の動き」を一般化した表現として適用してしまい、文脈や文化的背景を十分に反映できなかったことが一因と考えられる。

この体験から見えてきたのは、現在のAI動画生成が抱える課題だ。

AIは

を本質的に理解しているわけではない。

そのため、
写真集では「自然」に見えた動きが、
部族の肖像では「文脈を壊す動き」として表出してしまった。

写真を動かすAIは、表現の可能性を大きく広げる。
一方で、フェイク動画問題が示すように、誤解や偏見を助長するリスクも同時に抱えている。

特に、

を扱う場合、AIの「自動補完」は慎重に扱う必要があるだろう。

AI動画生成は今後さらに進化し、
より自然で、より人間らしい動きを生み出すようになるはずだ。

しかし同時に問われるのは、
「技術的にできること」と「やるべきこと」の線引きである。

写真が動き出す時代において、
私たちはAIを「便利な道具」として使うだけでなく、
その表現が何を生み、何を壊すのかを意識する必要があるのかもしれない。