ChatGPT Images 2.0、複数言語テキスト生成に対応

画像の中に文字を「正確に」入れられる時代へ
何が変わったのか
世界での使われ方を見ると、用途が見えてくる
注意点も押さえておきたい
フリーランスへの影響
まとめ

画像の中に文字を「正確に」入れられる時代へ

OpenAIが先週、ChatGPTの画像生成機能を刷新した「ChatGPT Images 2.0」をリリースしました。従来の画像生成は、テキストを含む画像を作ろうとするとどうしても文字がぐにゃぐにゃになりがちで、特に英語以外の言語では使い物にならないケースが多くありました。今回のアップデートはその点に正面から取り組んだもので、フリーランスのデザイナーやSNS運用担当者にとっては気になる内容です。

何が変わったのか

今回の主な変化は大きく2つあります。ひとつは、複数言語での正確なテキストレンダリングです。ヒンディー語やベンガル語といった非ラテン文字系の言語を画像内に自然に組み込めるようになりました。日本語や中国語なども対象に含まれており、テキストを使ったバナーやインフォグラフィックを作る際の精度が上がっています。

もうひとつが「thinking」機能の追加です。これは、プロンプトをAIが内部で整理・深掘りしてから画像を生成するというもので、一度の指示から複数のバリエーションを出力できます。たとえば「ファッションムードボード風の画像を作って」とだけ伝えても、雰囲気の異なる数パターンを提案してくれる形になりました。従来は細かく指示を調整しながら何度も生成し直す必要がありましたが、その手間が減りそうです。

世界での使われ方を見ると、用途が見えてくる

リリース後の反響を見ると、特にインドでの反応が顕著でした。リリース週だけで約500万回のダウンロードを記録し、米国の約200万回を大きく上回っています。パキスタン、ベトナム、インドネシアでも週比最大79%のダウンロード増という数字が出ており、非英語圏での需要の高さがはっきりと表れています。

インドのユーザーがどんな使い方をしているかというと、アバター作成やスタジオ風ポートレート、ソーシャルメディア向けのビジュアル、タロット風デザイン、ファッションムードボード、古い写真の復元など、かなり幅広い用途が報告されています。単に「便利ツールとして使う」というより、自己表現の手段として活用しているというのが面白いところです。

一方で、競合の動きも活発です。GoogleもインドでAI画像生成モデル「Nano Banana」の展開を進めており、非英語圏ユーザーをめぐる競争は激しくなっています。

注意点も押さえておきたい

ユーザー数や利用頻度を示す指標を見ると、ダウンロード数は伸びているものの、日次アクティブユーザーやセッション数の増加は約1%にとどまっています。つまり「ダウンロードはしたけど、まだ日常的には使っていない」という人が多い状況です。機能として面白いのは確かですが、業務フローに組み込むにはもう少し試行錯誤が必要かもしれません。また今回の記事では価格や料金の変更については触れられておらず、既存の利用プランのまま使える可能性が高いですが、公式ページで最新情報を確認しておくと安心です。

フリーランスへの影響

特に恩恵を受けやすいのは、SNS運用やコンテンツ制作を仕事にしているフリーランスです。画像内に文字を正確に配置する作業は、これまでPhotoshopなどで後からテキストを追加する手順が必要でしたが、今後は生成の段階からテキスト込みのビジュアルを作れる可能性が高まります。バナー1枚の制作時間が短縮できれば、それだけ別の案件に時間を回せます。

日本語テキストの精度については、まだ実際に使って確認してみないとわかりません。多言語対応とはいえ、日本語での品質が英語と同水準かどうかは別の話です。「使えそうだな」と感じた方は、まず簡単なバナーや告知画像で試してみて、業務に組み込めるかどうか判断するのが現実的なアプローチだと思います。

まとめ

ChatGPT Images 2.0は、テキスト入り画像の生成精度とバリエーション生成という2点で実用性が上がっています。日本語対応の実力は試してみないと見えてこない部分もあるので、まずは小さな案件で一度使ってみることをおすすめします。様子見でも十分ですが、SNS素材やバナー制作を頻繁にこなしている方は早めにチェックしてみる価値はあります。

参考記事：TechCrunch（Jagmeet Singh）