Web教材一覧AI

画像生成AI

(注)本ページは2024年中頃の記述です。技術的な説明は厳密ではありません。


画像生成AIとは

画像に関して、従来型のAIでは、写真やイラストを示してネコかイヌかを識別させることが主流でしたが、生成AIでは人間が「木登りをしているイヌ」というテキストデータ(プロンプト)を与えると、AIがその画像を表示するような機能をもっています。
(写真を入力して、アニメ風にするとういような機能を持つものもあります。)

この際、AIが膨大な資料から「木登りをしているイヌ」を検索しているのではありません。次のような画像作成の流れになります。

「実際の写真のように」とか「コミック風のイラストで」などプロンプトの追加に応じて多様な画像が得られますし、表示された画像にダメ出しをして、改良することができます。

画像生成に特化したアプリケーションもありますが、chatAI のような、Webブラウザから使える対話型AIの多くは、画像生成の機能を持っています。

画像生成AIの用途

反面、AIが膨大な資料を参照する過程で著作権や肖像権の侵害が発生したり、反社会的なフェイク画像が簡単に作成できるなど、画像生成AIの利用には多様なリスクがあります。


画像生成AIの技術

CNN(convolutional neural network, 畳み込みニューラルネットワーク)

ディープラーニングアルゴリズムの応用で、主に画像認識の基本技術になっています。畳み込み層、プーリング層、全結合層からなっています。

畳み込み層(convolution)
「犬の特徴」を学習することを例にします。画像から犬を識別するには、エッジ抽出などを行います。また、画像の中に犬が数匹いるとき、個々の犬を個別に対象にするのではなく、その全体を重ねて対象にしたほうが便利です。それを畳み込み層といいます。
プーリング層(pooling)
畳み込みをするとき、犬が右上・左下にいるなどの位置情報は重要ではありません。位置情報を適切に削除するのがプーリング層です。
全結合層(Affine)
結果として入力の各要素に得点が与えられますが、それは単一ではありません。ある識別視点では高得点でも、他の識別視点では低得点のことがあります。それを、活性化関数により重みづけして合致確率を計算します。

CNNの代表的な活用事例として、ネイルの類似検索や画像説明文自動生成などがあります。
 テキストデータを対象にした技術にRNN(Recurrent Neural Network、回帰型ニューラルネットワーク)があります。画像説明文自動生成ではCNNとRNNを利用して実現しています。

GAN(Generative Adversarial Network、敵対的生成ネットワーク)

本物の画像があり、AIが作り出した生成画像と本物画像を比較させ、より高精度の画像を生成する技術です。2014年発表

  1. 2つのニューラルネットワークGeneratorとDiscriminatorがある。
  2. Generatorは画像を生成する。
  3. Discriminatorは生成画像が本物画像であるかどうかを判別する。
  4. 2・3を繰り返すことで、本物画像に限りなく近い画像が生成できる。
pix2pix
本物画像もGeneratorにより変換します。「変換前の生成画像」と「変換後の本物画像」のペアを元に変換前の生成画像からGeneratorを通して本物画像に近い画像を生成します。このプロセスは2つの画像の比較の結果をAIに教えるので「教師あり学習」になります。
CycleGAN
特定の画像を別の画像に変換する方法です。2017年発表
 ・画像を有名画家の画風に変換する。
 ・人物を他人に変換する。
この場合は、「正解」に相当するものがないので「教師なし学習」になります。

VAE(Variational Autoencoder、変分オートエンコーダ)

DALL・E

DALL-E とは、画家のSalvador Dalí とアニメ映画の WALL-E からの造語だそうです。
 OpenAI社が開発した画像生成AIの構成技術で、テキストプロンプトからその内容を反映した画像を生成する機能をもっています。(E:2021年、E2:2022年、E3:2023年)
 DALL-E3 ではテキストのプロンプトだけでなく、画像のアップロードやURL指定もサポートされている(そうです)。
 DALL-E3 は、ChatGPT はじめ多くの画像生成に使われています。

DALL-E3は独立したサービスがないため料金プランは存在していません。ChatGPTを介したDALL-E3の利用は、現在はChatGPT Plusの有料プラン(月額$20)ユーザに限定されています。一方、Microsoft の Copilot などは、DALL-E3 を基本技術として利用していますが、Microsoft がライセンスをもっているので、無料で利用できます(2024年現在)


人工知能(AI)へ