DALL-Eとは (ダリとは) [単語記事]

DALL-E(ダリ)とは、Open AIによって開発された、テキストから画像を生成する画像生成AIである。

概要

DALL-Eは、自然言語で書かれた説明文(プロンプト)を入力すると、その内容に基づいてオリジナルの画像を生成することができる深層学習モデルである。2021年 1月にOpen AIのブログで初めて発表され、AI 画像生成分野において大きな注目を集めた。

名前の由来は、スペインの画家サルバドール・ダリ(Salvador Dalí)と、ピクサーのアニメーション映画「ウォーリー」の主人公 WALL-Eを組み合わせたものである。

DALL-Eは、大規模な言語モデル GPT-3を画像生成用に変更したバージョンをベースとしている。膨大な画像とテキストのペアを学習することで、言語の意味を理解し、それに対応する視覚的なイメージを生成することが可能となっている。

バージョンの変遷

DALL-E(初代)

2021年 1月に発表された初代DALL-Eは、GPT-3の120億パラメータモデルを画像生成用に変更したものである。テキストから画像を生成する基本的な機能を備えており、複数の物体やその属性、空間的な関係を理解して画像を生成できることが示された。

初代DALL-Eは、物体の属性の変更、視点の制御、スタイルの変換など、様々な能力を持っていたが、生成される画像の解像度や品質には限界があった。また、ソースコードは一般には公開されず、限定的な研究プレビューのみが提供された。

DALL-E 2

2022年 4月に発表されたDALL-E 2は、初代から大幅に性能が向上したバージョンである。より高い解像度(1024×1024 ピクセル)で、よりリアルで詳細な画像を生成することが可能となった。

DALL-E 2では、以下のような新機能が追加された。

インペインティング(Inpainting): 既存の画像の一部を編集・変更できる機能
アウトペインティング(Outpainting): 既存の画像の境界線を超えて画像を拡張できる機能
バリエーション生成: 元の画像に基づいて、似た雰囲気の異なる画像を複数生成できる機能

2022年 7月20日にはベータ版として一般公開が開始され、100万人の待機リストに招待が送られた。同年9月28日には待機リストが撤廃され、誰でも利用可能となった。ユーザーは毎月一定数の画像を無料で生成でき、追加の生成には有料クレジットを購入する形式となっている。

DALL-E 3

2023年 9月に発表されたDALL-E 3は、最新バージョンであり、前バージョンから約1年7ヶ月ぶりの大型アップデートとなった。

DALL-E 3の最大の特徴は、ChatGPTとの統合である。ChatGPTを通じて自然な会話形式で画像生成の指示を出すことができ、プロンプトの作成をChatGPTがサポートしてくれる。また、生成された画像が意図と異なる場合も、簡単な言葉を追加するだけで微調整が可能となっている。

DALL-E 3は、ChatGPT Plus、ChatGPT Enterprise、Microsoft Copilot(旧Bing Chat)、Bing Image Creatorなどで利用することができる。

主な機能と特徴

テキストから画像生成

DALL-Eの基本機能は、テキストの説明から画像を生成することである。「夕日に照らされた富士山を見つめる柴犬」「サイバーパンク風の東京タワー」のような具体的な説明を入力すると、それに対応した画像が生成される。

複数の概念、属性、スタイルを組み合わせることができ、現実には存在しない架空のシーンやオブジェクトも生成可能である。ただし、物体が増えると属性の関連付けを混同する傾向があり、複雑なプロンプトでは成功率が低下することがある。

画像編集機能

DALL-E 2以降では、既存の画像を編集する機能が追加されている。インペインティング機能では画像の一部を選択して別の内容に置き換えることができ、アウトペインティング機能では画像の外側に新たな要素を追加して画像を拡張することができる。これらの機能は、元の画像のコンテクストや視覚要素(影、反射、テクスチャなど)を考慮して自然な仕上がりとなるよう設計されている。

バリエーション生成

既存の画像をアップロードすると、その画像に基づいた複数のバリエーションを生成することができる。元の画像の雰囲気やスタイルを保ちながら、異なる構図や細部の表現を持った画像を作成できる。

利用方法

ChatGPT経由での利用

DALL-E 3は、ChatGPT Plus(有料プラン)に加入することで利用できる。ChatGPTの会話画面で画像生成の指示を出すと、DALL-E 3が自動的に呼び出され、画像が生成される。ChatGPTがプロンプトの改善をサポートしてくれるため、複雑なプロンプトを考える必要がない点が特徴である。

Microsoft製品での利用

DALL-E 3は、Microsoft CopilotやBing Image Creatorでも無料で利用できる。これらのサービスでは、Microsoft アカウントがあれば誰でも画像生成を試すことができる。

API経由での利用

Open AIのAPIを通じて、DALL-E 2およびDALL-E 3をプログラムから利用することも可能である。開発者は、自社のアプリケーションやサービスにDALL-Eの画像生成機能を組み込むことができる。

商用利用について

Open AIの公式サイトによると、DALL-Eで生成した画像の権利はユーザーに帰属し、商用利用も含めて自由に利用できるとされている。ただし、Open AIのコンテンツポリシーに違反する内容(暴力的、差別的な表現など)や、他者の知的財産権を侵害する場合、法律に違反する場合は除く。

一方、Microsoft CopilotやBing Image Creatorで生成した画像については、商用利用の可否がOpen AIほど明確ではないため、利用にあたっては最新の利用規約を確認することが推奨される。

安全性への取り組み

Open AIは、DALL-Eの開発において安全性を重視している。学習データから暴力的、性的、差別的なコンテンツを除去し、有害な画像が生成されにくいよう対策を施している。また、実在の人物の顔が写実的に生成されることを防ぐ技術も導入されている。

DALL-E 2では、公開データセットに依存することによるバイアス(例えば、性別や人種に関する偏り)の問題も指摘されており、Open AIはプロンプトに性別や人種を示す語句を自動的に挿入するなどの対策を行っている。

影響と評価

DALL-Eの登場は、AI 画像生成分野に大きな影響を与えた。テキストから高品質な画像を生成できる技術が一般に広く知られるきっかけとなり、Mi djourney、Stable Diffusionなど、他の画像生成AI サービスの開発・普及も加速した。

クリエイティブ分野では、デザインやイラストレーションの制作過程において、アイデアの視覚化やラフスケッチの作成に活用されるようになった。一方で、AIによる画像生成が著作権や芸術家の仕事に与える影響についての議論も活発化している。

DALL-E 単語

概要