AIの魔法！？デジタルアートの新時代 | +VISION®【プラスビジョン】

INTRODUCTION

今の時代、デジタルテクノロジーがガンガン進化してる中、AI（人工知能）がフィールドで大暴れしてるんだ。特にアートの世界でのその活躍っぷりはヤバいぜ。このAIの力で、アーティストたちも新しい技やスタイルをガンガン磨いて、デジタルアートの新しいステージに挑戦してるんだ。

AIとアートのコンビネーションは、まるで最強のタッグチームみたいなもんさ。一緒になって新しい技やコンボをキメて、観客を驚かせてるぜ。これは、AIがアートの世界で新しいムーブを生み出してるってことだな。この新しい舞台で、アーティストたちはAIと一緒に最前線で戦って、新たな頂点を目指してるんだ。

このAI魔法とデジタルアートの新時代、一緒に乗り越えていこうぜ！新しい時代のスタートラインに立ってるんだから、全力で突っ走るしかないだろ！

#1アートとテクノロジーの融合で創造の扉を開く
#2キャラクタリアリティエンハンサー
#3「なりたい」を現実に。スマートイメージ変換

アートとテクノロジーの融合で創造の扉を開く

アートの世界において、新しいスタイルや表現方法を追求することは、常にクリエイターたちの挑戦となっています。そして今、テクノロジーがその挑戦をサポートし、新しい可能性を切り開く手段となりつつあります。今回紹介する特許発明は、まさにアートとテクノロジーの融合から生まれた、新しい創造の道を開くツールです。

このシステムは、多くの異なるアートワークから「特徴データ」を抽出し、それを基にまったく新しいスタイルの画像を生成することを可能にします。異なるアーティストや時代から得られたデータを解析し、新しい作風を探求することで、アーティストやデザイナーがこれまでにない新しい表現を生み出す手助けをします。

この技術は、アートの新しいトレンドを生み出すだけでなく、デザインの分野においても新しい波を作る可能性を秘めています。アートとテクノロジーが交わることで、私たちの表現の形がどのように変わり、進化していくのか、その未来が非常に楽しみです。

発明の背景

本発明は、新規な作風のデジタルデータを特定できる情報処理方法、プログラム、および情報処理装置に関します。

近年、キーワードを入力して画像を生成する画像生成ＡＩ（Artificial Intelligence）が知られています。入力するキーワード（すなわち、命令文）を工夫すれば、自分の思い通りの画像を生成してくれる可能性を秘めている技術が、画像生成ＡＩです。

従来技術では、ユーザが作成したい画像をキーワード化し、このキーワードを入力することで、キーワードに適合する唯一無二の画像が生成されます。しかし、画像生成ＡＩは、過去に蓄積されたデータを参考にしているため、生み出された画像も、過去の画像のうち多数派の画像を参考にしてしまう可能性が高いといえます。したがって、従来の画像の作風（画家の特色や傾向）と全く異なる新規な画像が生成されるとは限りません。

そこで、従来の多数派に類似する作風ではなく、新規な作風のデジタルデータを容易に特定できる仕組みが要望されています。

どんな発明？

発明の目的

本発明で提供するアイデアは、新規な作風を有するデジタルデータを容易に特定できる仕組みです。換言すると、本発明は、新規な作風を有するデジタルデータを容易に特定できる情報処理方法、および、この方法を実施する情報処理装置です。

本発明の情報処理方法では、
まず第１ステップで、情報処理装置に含まれるプロセッサが、画像生成指示を受け付けます。

次の第２ステップで、複数の画像におけるＮ次元の各第１特徴データと、生成指示に応じて生成されるＮ次元の第２特徴データとの距離を用いて、各第２特徴データの中から、Ｎ次元の座標系のなかで「疎な領域」内の第３特徴データを特定します。簡単に説明しますと、過去の画像の特徴データ（第１特徴データ）と、ＡＩ技術で生成された画像の特徴データ（第２特徴データ）とを比較して、第２特徴データのうち、第１特徴データ（従来の作風）から最も類似しない特徴データ（第３特徴データ）を特定し（選び出し）ます。

最後の第３ステップで、特定された第３特徴データに関する情報を出力します。

好ましくは、第２ステップで、
各時代に分類された画像（ルネサンス時代の画像、印象派時代の画像など）から各時代の流行を学習する学習モデルを用います。この学習モデルは、各時代の画像の流行から将来の画像の流行を予測できます。そして、この学習モデルを用いて、将来の流行を示す画像の第３特徴データを特定します。

好ましくは、本発明の情報処理方法では、機械学習モデルを利用して第３特徴データから画像を生成し、生成される画像を第３ステップで出力します。

発明の詳細

図面を参照して、本発明の具体例を説明します。なお、各図において、同一の符号を付したものは、同一または同様の構成を有します。

＜システム構成＞
図１は、本発明のシステム構成の一例を示します。図１に示すシステム１において、サーバ１０と情報処理装置２０とが、ネットワークを介してデータ送受信できるように接続されています。

サーバ１０は、データを収集および分析できる情報処理装置であり、１つまたは複数の情報処理装置で構成されます。情報処理装置２０は、例えばユーザが利用するパーソナルコンピュータ、スマートフォン、タブレット端末などの装置です。

情報処理装置２０は、例えば、ネットワークを介してサーバ１０に接続されます。

図１に示すシステム１では、例えば、新規な作風の画像を生成する画像生成指示を、情報処理装置２０からサーバ１０が受け付けます。そして、様々な流派や年代の画像の特徴データによって生成される空間（後に詳述）を用いて、これまで描かれたり生成されたりしていない作風の画像を特定します。後に具体的に説明しますが、特徴データがマッピングされた空間のなかで「疎な空間」は、これまで存在しない作風の特徴データを含む空間を示します。この「疎な空間」内から特徴データを特定できるのです。

【図１】

次に、本発明を構成する各装置の物理的構成について説明します。

＜ハードウェア構成＞
図２は、サーバの情報処理装置１０の物理的構成の一例を示します。サーバ１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａ、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂ、記憶部に相当するＲＯＭ（Read only Memory）１０ｃ、通信部１０ｄ、入力部１０ｅ、および、表示部１０ｆを有します。これらの各構成は、相互にデータ送受信できるように接続されています。

【図２】

本具体例では、情報処理装置１０が一台の情報処理装置で構成される場合について説明しますが、情報処理装置１０では、例えば、複数のコンピュータまたは複数の演算部が組み合わされる場合があります。

ＣＰＵ１０ａは、ＲＡＭ１０ｂまたはＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御、データの演算、加工を行う制御部です。ＣＰＵ１０ａは、演算部であり、例えば、所定の生成指示を取得すると、これまでに存在しない新規な作風の特徴データを特定するプログラムを実行します。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりします。

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されます。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、様々な作風や年代の画像、これらの画像の特徴データなどのデータを記憶します。

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されます。ＲＯＭ１０ｃは、例えば生成プログラム、または、書き換えできないデータを記憶します。

通信部１０ｄは、情報処理装置１０を他の機器に接続するインターフェースです。通信部１０ｄは、インターネット等の通信ネットワークに接続されます。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードおよびタッチパネルを含みます。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、液晶表示装置（ＬＣＤ　Liquid Crystal Display）により構成されます。表示部１０ｆは、例えば、学習結果などを表示します。

本発明のプログラムは、コンピュータによって読み取り可能な非一時的な記憶媒体（ＲＡＭ１０ｂやＲＯＭ１０ｃ等）に記憶されて提供されたり、通信部１０ｄにより接続される通信ネットワークを介して提供されたりします。情報処理装置１０では、ＣＰＵ１０ａが特定プログラムを実行することにより、様々な動作（後の図３で説明）を行います。なお、例えば情報処理装置１０は、ＣＰＵ１０ａと、ＲＡＭ１０ｂやＲＯＭ１０ｃとが一体化したＬＳＩ（Large-Scale Integration）を備える場合があります。また、情報処理装置１０は、ＧＰＵ（Graphical Processing Unit）やＡＳＩＣ（Application Specific Integrated Circuit）を備える場合があります。

＜処理構成例＞
図３は、情報処理装置１０の処理ブロックの一例を示します。情報処理装置１０は、受付部１１、特定部１２、出力部１３、生成部１４、および記憶部１５を備えます。図３に示す特定部１２、生成部１４は、例えばＣＰＵ１０ａなどによって実現されます。受付部１１および出力部１３は、例えば通信部１０ｄなどによって実現されます。記憶部１５は、ＲＡＭ１０ｂやＲＯＭ１０ｃなどによって実現されます。情報処理装置１０は、量子コンピュータなどで構成される場合があります。

【図３】

受付部１１は、所定の生成指示を受け付けます。例えば、受付部１１は、ユーザ装置などの他の情報処理装置２０から送信された画像生成指示を、通信部１０ｄを介して受け付けます。画像生成指示は、例えば、特徴データ生成指示です。

特定部１２では、すでにある多数の画像の特徴と、生成指示に従って生成された画像の特徴とを比べます。詳しくは、特徴を測るためにＮ個の指標（物差し）を採用します。例えば、色の表現法としてＲＧＢ［赤(Red)、緑(Green)、青(Blue)］を採用すると、指標として３つの原色を採用するため、Ｎは３となります。色自体は、Ｎ＝３の３次元の立体的なグラフ上で表せますが、画像の特徴には、色の他にも明度（明るさ）や透明度という指標もあります。さらにほかの指標も関係します。よって、通常、Ｎは３以上の整数になります。

そして、多数の画像におけるＮ次元の各特徴データ（「第１特徴データ」）を取得したうえで、さらに、生成指示に従って生成される画像でも、Ｎ次元の特徴データ（「第２特徴データ」）を取得します。

ここで、「第１特徴データ」と「第２特徴データ」とを比較するために、「第１特徴データ」と「第２特徴データ」との距離を計算します（後に詳述）。そして、計算によって求めた距離を基にして、各第２特徴データの中から、Ｎ次元の座標系内の「疎な領域」内の特徴データ（「第３特徴データ」）を特定します。すなわち、第１特徴データから最もかけ離れた特徴データを決めます。

Ｎ次元の座標系のデータは、例えば、各時代の多数の絵画などを撮影するなどしてデジタルデータ化し、デジタルデータ化した画像からＮ次元の特徴データが抽出され、Ｎ次元の特徴データがＮ次元の座標系にマッピングされて生成されます。Ｎ次元は、例えば、ＲＧＢなどの各成分、輝度、透明度などによって表され、座標系の各軸は所定範囲（例、０～２５５）で表されます。

「疎な領域」にある特徴データ「第３特徴データ」は、過去の画像データの特徴データをマッピングした座標系において、これまでにない作風の画像の特徴データであることを示しています。「疎な領域」を探索するための方法では、例えば、ランダムにＮ次元の第２特徴データを所定数になるまで生成された第２特徴データと、座標系にマッピングされた多数の過去画像の各第１特徴データとを用いて平均二乗誤差（ＭＳＥ：Mean Square Error）を算出します。次に、このＭＳＥが一番大きい特徴データ、すなわち、過去画像の各第１特徴データから最も離れている第２特徴データを、「疎な領域」内の第３特徴データとして特定します。要約しますと、ＡＩなどを利用して生成した画像の特徴のなかで、従来の画像の特徴から最も離れている特徴データを抽出します。なお、ＭＳＥは、類似度を計算する手法の一例であり、その他の計算手法を用いることも可能です。

出力部１３は、特定部１２により特定された上記の第３特徴データに関する情報を出力します。例えば、出力部１３は、特定された第３特徴データそのものを出力したり、特定された第３特徴データに基づいて生成された情報を出力したりします。第３特徴データに基づいて生成された情報は、例えば、この第３特徴データから生成された画像、および、この第３特徴データを直接的または間接的にユーザに通知する通知情報などを含みます。

以上の処理により、新規な作風を有する画像の第３特徴データを容易に特定できます。

＜適用例＞
抽象的な説明が続いたため、次に具体的な適用例を挙げて説明します。

図４～図７は、適用例を説明するための図です。図４は、３次元の座標空間に過去画像の特徴データがマッピングされた例を示します。図４に示す例において、過去画像の特徴データ（第１特徴データ）は点で表され、第１乃至３次元は、例えばＲＧＢ（赤、緑、青）の各成分に対応します。

【図４】

さらに具体的な適用例を示します。時代に応じて作風の流行を推定する例を次の図７で説明します。

【図７】

時代に応じて作風の流行を推定する図７の例では、第Ｎ年代（第１～第５年代）の作風が密集した領域が特定されます。例えば、古代から現代における各年代の作風の第１特徴データを推定する関数Ｆ１が求められます。関数Ｆ１は、１次関数の直線、または、Ｎ次関数などの曲線です。関数Ｆ１は、年代を入力することで、その年代の流行の作風を推定する方程式、と認識できます。

例えば、西洋美術の場合、以下の時代ごとに流行した画像の第１特徴データを用いることが可能です。
１２世紀：ゴシック美術
１５世紀末：北方ルネサンス美術
１５世紀末から３０年間ほど：盛期ルネサンス美術
１７世紀：バロック美術
１８世紀：ロココ美術
１８世紀後半：新古典主義
１９世紀前半：写実主義
１９世紀後半：印象派
２０世紀初頭：キュビズム
２０世紀以降：２１世紀美術

関数Ｆ１は、例えば、各年代の第１特徴データを学習データとし、流行の特徴データを推定する回帰問題を解く（方程式を解く）機械学習モデルを使い、機械学習によって算出されます。

以上の処理により、ある時代を特定することで、その時代の作風を表す第３特徴データを推定可能です。また、生成部１４は、推定された第３特徴データに基づいて画像を生成できます。これにより、年代を指定することで、その年代の流行を示す作風の画像を自動で生成できます。算出された関数（学習モデル）Ｆ１は、記憶部１５に記憶され、外部の装置に出力されます。なお、各年代の流行の作風は、例えば世界の地域ごとに設定されます。具体的には、特定部１２は、西洋美術、日本美術、東洋美術などの各地域の各絵画の画像の作風から、各地域の流行の作風を推定する関数を求めます。

上記の図７で具体的な一例を説明しました。具体例を示したところで（少し抽象的になりますが）本発明の概念を説明します。図５は、特徴データが同様に３次元座標空間にマッピングされた例ですが、図５に示す点Ａ１乃至Ａ８は、ＡＩ等によってランダムに生成された特徴データ（第２特徴データ）であり、＊で表されます。

図５に示す例において、第２特徴データそれぞれと、各第１特徴データとの平均二乗誤差（類似度の一例）を求め、平均二乗誤差が一番大きい第２特徴データを第３特徴データとして特定します。図５に示す例では、第２特徴データＡ１が、各第１特徴データから最も離れた第３特徴データとなります。生成部１４は、第２特徴データＡ１に基づいて画像を生成します。これにより、新規な作風の画像を生成できます。

【図５】

図６は、３次元座標空間における各第１特徴データの最外形を形成する例を示します。図６に示す例では、最外形を点線の楕円形状で表しますが、ポリゴン形状（多面体形状）で表すことも可能です。図６に示す例において、最外形の外側にある第２特徴データＡ１およびＡ８は、特定対象から除外します。あまりにも常識から外れた特徴を取り除く作業です。そして、最外形の内部にある第２特徴データの中から、各第１特徴データとの平均二乗誤差が一番大きい（類似度が一番小さい）第３特徴データを特定します。例えば、第２特徴データＡ５の平均二乗誤差が一番大きいとします。

第２特徴データＡ５は、既存の作風によって形成される領域の中で、最も「疎な空間」に存在する特徴データであり、これまでに存在しない作風の特徴データであることを表します。第２特徴データＡ５に基づいて画像を生成することで、既存の作風によって形成される領域または空間の中であり、かつ、既存にはない作風の画像を自動で生成できます。

【図６】

また、各第１特徴データに基づいて画像を分類する学習が行われた学習モデル（学習済みモデル）１２ａに、第２特徴データを入力して、第３特徴データを特定することも可能です。

例えば、過去画像の第１特徴データを分類（クラスタリング）する機械学習を行います。このとき、ランダムに新たな第２特徴データを学習モデル１２ａに入力し、各クラスタ（分類群）と最もかけ離れた（類似度が一番低い）第２特徴データを第３特徴データとして特定します。なお、外部装置から取得した学習済みの学習モデル１２ａを利用可能です。

以上の処理により、新規な作風の画像の第３特徴データを探索することを容易に行うことができるようになります。

また、学習モデル１２ａを用いる場合は、最外形の外側にある第２特徴データに対してペナルティ項を設けて損失関数を定義することで、最外形の外側にある第２特徴データが第３特徴データとして特定されにくくできます。換言すると、異常値と考えられる特徴データを簡便に取り除くことが可能です。

以上の処理により、過去画像の作風に基づき形成される領域のうち「疎な領域」を特定でき、これまで評価されてきた作風に基づき、これまでに存在しなかった作風の特徴データを特定できます。すなわち、人に受け入れられやすい作風の画像の特徴データを特定できます。

生成部１４は、特定された第３特徴データに基づいて画像を生成します。このとき、生成部１４は、生成された画像が、特定された第３特徴データを維持するようにして画像を生成します。

出力部１３は、生成部１４によって生成された画像を出力します。出力部１３は、画像生成要求を行った情報処理装置２０に、生成された画像を出力する場合があります。

以上の処理により、新規な作風を示す第３特徴データから生成された画像をユーザに提供できます。

また、生成部１４は、画像生成を行う機械学習モデルを利用して探索された第３特徴データから画像を生成することも可能です。例えば、生成部１４は、公知の画像生成ＡＩを利用して、第３特徴データを画像生成ＡＩに入力することで画像を生成できます。

以上の処理により、容易に画像を生成でき、第３特徴データを有する複数の画像を容易に生成できます。なお、画像生成ＡＩにより生成された複数の画像をユーザに提示し、少なくとも１つの画像を選択してもらうことで、ユーザの好みを画像生成ＡＩが学習することも可能です。これにより、そのユーザの好みの画像を生成できます。

また、学習モデル１２ａを用いて、将来の流行を示す画像の第３特徴データを特定できます。学習モデル１２ａは、各時代に分類された複数の画像から各時代の流行を学習し、さらに、各時代の画像の流行から将来の画像の流行を予測できます。例えば、画像の作風の流行を予測する学習モデル１２ａを用いることにより、将来人類に好まれる作風を予測し、予測された第３特徴データを特定します。

また、何年先かを指定することで、指定された年に流行すると予測される作風の特徴データを特定することも可能です。生成部１４は、予測された特徴データに基づいて画像を生成することも可能です。

以上の処理により、将来流行すると予測される作風の特徴データを特定できます。例えば、１０年後、２０年後などの将来の所定年を指定することで、その指定年の流行の作風の特徴データを予測可能です。

ここがポイント！

以上説明しましたように、本発明によって、新規な作風を有するデジタルデータの特定を容易に行えます。

本発明の情報処理方法および情報処理装置では、まず第１ステップで、情報処理装置に含まれるプロセッサが、画像生成指示を受け付けます。

次の第２ステップで、複数の画像におけるＮ次元の各第１特徴データと、生成指示に応じて生成されるＮ次元の第２特徴データとの距離を用いて、各第２特徴データの中から、Ｎ次元の座標系のなかで「疎な領域」内の第３特徴データを特定します。

最後の第３ステップで、特定された第３特徴データに関する情報を出力します。

未来予想

本特許は、クリエイターズネクスト社から出願されました。クリエイターズネクスト社は、窪田　望氏によって設立されました。ウェブサイトを見ますと、今までのクリエイターはモノづくりをしていたが、「次の(NEXT)」時代のクリエイターは「笑顔」を創るべきだ、というコンセプトがあります。

窪田　望氏は、過去に日本一のウェブ解析士として２年連続で選出されたという経歴をお持ちです。事業分野は、ウェブサイト制作事業、ウェブ上メディア運営事業、ウェブサイト記事執筆事業などです。

本発明は、ＡＩ技術を利用しつつ独自性のある画像を生成するためのアイデアです。独自性や創造性は人間だけの能力と考えられていますが、近い将来、属自制や創造性のある画像が簡単に生成される可能性を秘めた発明です。

特許の概要

発明の名称	新規な作風のデジタルデータの特定
出願番号	特願2022-197061
特許番号	特許第7270894号
出願日	2022.12.09
公開日	2023.05.11（特許公報）
審査請求日	2022.12.09（早期審査対象出願）
登録日	2023.04.28
出願人	株式会社Ｃｒｅａｔｏｒ’ｓ　ＮＥＸＴ
発明者	窪田　望
国際特許分類	G06T 1/40 G06T 7/00
経過情報	本願は出願日と同日に早期審査請求され、拒絶理由通知を受けずに特許となりました。

キャラクタリアリティエンハンサー

今回紹介する発明は、架空のキャラクターが現実のように感じられる、新しいエンターテインメント体験を実現するためのものです。従来のテキストや音声ベースの対話システムを大きく進化させ、キャラクターが自らの個性やトレンドに合わせて、活動の様子を視覚的コンテンツとして自動生成し、リアリティあふれる存在感を表現します。これにより、キャラクターとのコミュニケーションが一層豊かになり、ファンとの絆を深めることができます。

具体的にどのような発明なのでしょうか。詳説していきます。