AIの魔法!?デジタルアートの新時代

INTRODUCTION

今の時代、デジタルテクノロジーがガンガン進化してる中、AI(人工知能)がフィールドで大暴れしてるんだ。特にアートの世界でのその活躍っぷりはヤバいぜ。このAIの力で、アーティストたちも新しい技やスタイルをガンガン磨いて、デジタルアートの新しいステージに挑戦してるんだ。

AIとアートのコンビネーションは、まるで最強のタッグチームみたいなもんさ。一緒になって新しい技やコンボをキメて、観客を驚かせてるぜ。これは、AIがアートの世界で新しいムーブを生み出してるってことだな。この新しい舞台で、アーティストたちはAIと一緒に最前線で戦って、新たな頂点を目指してるんだ。

このAI魔法とデジタルアートの新時代、一緒に乗り越えていこうぜ!新しい時代のスタートラインに立ってるんだから、全力で突っ走るしかないだろ!

CONTENTS

  • #1アートとテクノロジーの融合で創造の扉を開く

  • #2キャラクタリアリティエンハンサー

  • #3「なりたい」を現実に。スマートイメージ変換

アートとテクノロジーの融合で創造の扉を開く


アートの世界において、新しいスタイルや表現方法を追求することは、常にクリエイターたちの挑戦となっています。そして今、テクノロジーがその挑戦をサポートし、新しい可能性を切り開く手段となりつつあります。今回紹介する特許発明は、まさにアートとテクノロジーの融合から生まれた、新しい創造の道を開くツールです。

このシステムは、多くの異なるアートワークから「特徴データ」を抽出し、それを基にまったく新しいスタイルの画像を生成することを可能にします。異なるアーティストや時代から得られたデータを解析し、新しい作風を探求することで、アーティストやデザイナーがこれまでにない新しい表現を生み出す手助けをします。

この技術は、アートの新しいトレンドを生み出すだけでなく、デザインの分野においても新しい波を作る可能性を秘めています。アートとテクノロジーが交わることで、私たちの表現の形がどのように変わり、進化していくのか、その未来が非常に楽しみです。

本発明は、新規な作風のデジタルデータを特定できる情報処理方法、プログラム、および情報処理装置に関します。

近年、キーワードを入力して画像を生成する画像生成AI(Artificial Intelligence)が知られています。入力するキーワード(すなわち、命令文)を工夫すれば、自分の思い通りの画像を生成してくれる可能性を秘めている技術が、画像生成AIです。

従来技術では、ユーザが作成したい画像をキーワード化し、このキーワードを入力することで、キーワードに適合する唯一無二の画像が生成されます。しかし、画像生成AIは、過去に蓄積されたデータを参考にしているため、生み出された画像も、過去の画像のうち多数派の画像を参考にしてしまう可能性が高いといえます。したがって、従来の画像の作風(画家の特色や傾向)と全く異なる新規な画像が生成されるとは限りません。

そこで、従来の多数派に類似する作風ではなく、新規な作風のデジタルデータを容易に特定できる仕組みが要望されています。

発明の目的

本発明で提供するアイデアは、新規な作風を有するデジタルデータを容易に特定できる仕組みです。換言すると、本発明は、新規な作風を有するデジタルデータを容易に特定できる情報処理方法、および、この方法を実施する情報処理装置です。

本発明の情報処理方法では、
まず第1ステップで、情報処理装置に含まれるプロセッサが、画像生成指示を受け付けます。

次の第2ステップで、複数の画像におけるN次元の各第1特徴データと、生成指示に応じて生成されるN次元の第2特徴データとの距離を用いて、各第2特徴データの中から、N次元の座標系のなかで「疎な領域」内の第3特徴データを特定します。簡単に説明しますと、過去の画像の特徴データ(第1特徴データ)と、AI技術で生成された画像の特徴データ(第2特徴データ)とを比較して、第2特徴データのうち、第1特徴データ(従来の作風)から最も類似しない特徴データ(第3特徴データ)を特定し(選び出し)ます。

最後の第3ステップで、特定された第3特徴データに関する情報を出力します。

好ましくは、第2ステップで、
各時代に分類された画像(ルネサンス時代の画像、印象派時代の画像など)から各時代の流行を学習する学習モデルを用います。この学習モデルは、各時代の画像の流行から将来の画像の流行を予測できます。そして、この学習モデルを用いて、将来の流行を示す画像の第3特徴データを特定します。

好ましくは、本発明の情報処理方法では、機械学習モデルを利用して第3特徴データから画像を生成し、生成される画像を第3ステップで出力します。

発明の詳細

図面を参照して、本発明の具体例を説明します。なお、各図において、同一の符号を付したものは、同一または同様の構成を有します。

<システム構成>
図1は、本発明のシステム構成の一例を示します。図1に示すシステム1において、サーバ10と情報処理装置20とが、ネットワークを介してデータ送受信できるように接続されています。

サーバ10は、データを収集および分析できる情報処理装置であり、1つまたは複数の情報処理装置で構成されます。情報処理装置20は、例えばユーザが利用するパーソナルコンピュータ、スマートフォン、タブレット端末などの装置です。

情報処理装置20は、例えば、ネットワークを介してサーバ10に接続されます。

図1に示すシステム1では、例えば、新規な作風の画像を生成する画像生成指示を、情報処理装置20からサーバ10が受け付けます。そして、様々な流派や年代の画像の特徴データによって生成される空間(後に詳述)を用いて、これまで描かれたり生成されたりしていない作風の画像を特定します。後に具体的に説明しますが、特徴データがマッピングされた空間のなかで「疎な空間」は、これまで存在しない作風の特徴データを含む空間を示します。この「疎な空間」内から特徴データを特定できるのです。

【図1】

次に、本発明を構成する各装置の物理的構成について説明します。

<ハードウェア構成>
図2は、サーバの情報処理装置10の物理的構成の一例を示します。サーバ10は、演算部に相当するCPU(Central Processing Unit)10a、記憶部に相当するRAM(Random Access Memory)10b、記憶部に相当するROM(Read only Memory)10c、通信部10d、入力部10e、および、表示部10fを有します。これらの各構成は、相互にデータ送受信できるように接続されています。

【図2】

本具体例では、情報処理装置10が一台の情報処理装置で構成される場合について説明しますが、情報処理装置10では、例えば、複数のコンピュータまたは複数の演算部が組み合わされる場合があります。

CPU10aは、RAM10bまたはROM10cに記憶されたプログラムの実行に関する制御、データの演算、加工を行う制御部です。CPU10aは、演算部であり、例えば、所定の生成指示を取得すると、これまでに存在しない新規な作風の特徴データを特定するプログラムを実行します。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりします。

RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されます。RAM10bは、CPU10aが実行するプログラム、様々な作風や年代の画像、これらの画像の特徴データなどのデータを記憶します。

ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されます。ROM10cは、例えば生成プログラム、または、書き換えできないデータを記憶します。

通信部10dは、情報処理装置10を他の機器に接続するインターフェースです。通信部10dは、インターネット等の通信ネットワークに接続されます。

入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボードおよびタッチパネルを含みます。

表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、液晶表示装置(LCD Liquid Crystal Display)により構成されます。表示部10fは、例えば、学習結果などを表示します。

本発明のプログラムは、コンピュータによって読み取り可能な非一時的な記憶媒体(RAM10bやROM10c等)に記憶されて提供されたり、通信部10dにより接続される通信ネットワークを介して提供されたりします。情報処理装置10では、CPU10aが特定プログラムを実行することにより、様々な動作(後の図3で説明)を行います。なお、例えば情報処理装置10は、CPU10aと、RAM10bやROM10cとが一体化したLSI(Large-Scale Integration)を備える場合があります。また、情報処理装置10は、GPU(Graphical Processing Unit)やASIC(Application Specific Integrated Circuit)を備える場合があります。

<処理構成例>
図3は、情報処理装置10の処理ブロックの一例を示します。情報処理装置10は、受付部11、特定部12、出力部13、生成部14、および記憶部15を備えます。図3に示す特定部12、生成部14は、例えばCPU10aなどによって実現されます。受付部11および出力部13は、例えば通信部10dなどによって実現されます。記憶部15は、RAM10bやROM10cなどによって実現されます。情報処理装置10は、量子コンピュータなどで構成される場合があります。

【図3】

受付部11は、所定の生成指示を受け付けます。例えば、受付部11は、ユーザ装置などの他の情報処理装置20から送信された画像生成指示を、通信部10dを介して受け付けます。画像生成指示は、例えば、特徴データ生成指示です。

特定部12では、すでにある多数の画像の特徴と、生成指示に従って生成された画像の特徴とを比べます。詳しくは、特徴を測るためにN個の指標(物差し)を採用します。例えば、色の表現法としてRGB[赤(Red)、緑(Green)、青(Blue)]を採用すると、指標として3つの原色を採用するため、Nは3となります。色自体は、N=3の3次元の立体的なグラフ上で表せますが、画像の特徴には、色の他にも明度(明るさ)や透明度という指標もあります。さらにほかの指標も関係します。よって、通常、Nは3以上の整数になります。

そして、多数の画像におけるN次元の各特徴データ(「第1特徴データ」)を取得したうえで、さらに、生成指示に従って生成される画像でも、N次元の特徴データ(「第2特徴データ」)を取得します。

ここで、「第1特徴データ」と「第2特徴データ」とを比較するために、「第1特徴データ」と「第2特徴データ」との距離を計算します(後に詳述)。そして、計算によって求めた距離を基にして、各第2特徴データの中から、N次元の座標系内の「疎な領域」内の特徴データ(「第3特徴データ」)を特定します。すなわち、第1特徴データから最もかけ離れた特徴データを決めます。

N次元の座標系のデータは、例えば、各時代の多数の絵画などを撮影するなどしてデジタルデータ化し、デジタルデータ化した画像からN次元の特徴データが抽出され、N次元の特徴データがN次元の座標系にマッピングされて生成されます。N次元は、例えば、RGBなどの各成分、輝度、透明度などによって表され、座標系の各軸は所定範囲(例、0~255)で表されます。

「疎な領域」にある特徴データ「第3特徴データ」は、過去の画像データの特徴データをマッピングした座標系において、これまでにない作風の画像の特徴データであることを示しています。「疎な領域」を探索するための方法では、例えば、ランダムにN次元の第2特徴データを所定数になるまで生成された第2特徴データと、座標系にマッピングされた多数の過去画像の各第1特徴データとを用いて平均二乗誤差(MSE:Mean Square Error)を算出します。次に、このMSEが一番大きい特徴データ、すなわち、過去画像の各第1特徴データから最も離れている第2特徴データを、「疎な領域」内の第3特徴データとして特定します。要約しますと、AIなどを利用して生成した画像の特徴のなかで、従来の画像の特徴から最も離れている特徴データを抽出します。なお、MSEは、類似度を計算する手法の一例であり、その他の計算手法を用いることも可能です。

出力部13は、特定部12により特定された上記の第3特徴データに関する情報を出力します。例えば、出力部13は、特定された第3特徴データそのものを出力したり、特定された第3特徴データに基づいて生成された情報を出力したりします。第3特徴データに基づいて生成された情報は、例えば、この第3特徴データから生成された画像、および、この第3特徴データを直接的または間接的にユーザに通知する通知情報などを含みます。

以上の処理により、新規な作風を有する画像の第3特徴データを容易に特定できます。

<適用例>
抽象的な説明が続いたため、次に具体的な適用例を挙げて説明します。

図4~図7は、適用例を説明するための図です。図4は、3次元の座標空間に過去画像の特徴データがマッピングされた例を示します。図4に示す例において、過去画像の特徴データ(第1特徴データ)は点で表され、第1乃至3次元は、例えばRGB(赤、緑、青)の各成分に対応します。

【図4】

さらに具体的な適用例を示します。時代に応じて作風の流行を推定する例を次の図7で説明します。

【図7】

時代に応じて作風の流行を推定する図7の例では、第N年代(第1~第5年代)の作風が密集した領域が特定されます。例えば、古代から現代における各年代の作風の第1特徴データを推定する関数F1が求められます。関数F1は、1次関数の直線、または、N次関数などの曲線です。関数F1は、年代を入力することで、その年代の流行の作風を推定する方程式、と認識できます。

例えば、西洋美術の場合、以下の時代ごとに流行した画像の第1特徴データを用いることが可能です。
12世紀:ゴシック美術
15世紀末:北方ルネサンス美術
15世紀末から30年間ほど:盛期ルネサンス美術
17世紀:バロック美術
18世紀:ロココ美術
18世紀後半:新古典主義
19世紀前半:写実主義
19世紀後半:印象派
20世紀初頭:キュビズム
20世紀以降:21世紀美術

関数F1は、例えば、各年代の第1特徴データを学習データとし、流行の特徴データを推定する回帰問題を解く(方程式を解く)機械学習モデルを使い、機械学習によって算出されます。

以上の処理により、ある時代を特定することで、その時代の作風を表す第3特徴データを推定可能です。また、生成部14は、推定された第3特徴データに基づいて画像を生成できます。これにより、年代を指定することで、その年代の流行を示す作風の画像を自動で生成できます。算出された関数(学習モデル)F1は、記憶部15に記憶され、外部の装置に出力されます。なお、各年代の流行の作風は、例えば世界の地域ごとに設定されます。具体的には、特定部12は、西洋美術、日本美術、東洋美術などの各地域の各絵画の画像の作風から、各地域の流行の作風を推定する関数を求めます。

上記の図7で具体的な一例を説明しました。具体例を示したところで(少し抽象的になりますが)本発明の概念を説明します。図5は、特徴データが同様に3次元座標空間にマッピングされた例ですが、図5に示す点A1乃至A8は、AI等によってランダムに生成された特徴データ(第2特徴データ)であり、*で表されます。

図5に示す例において、第2特徴データそれぞれと、各第1特徴データとの平均二乗誤差(類似度の一例)を求め、平均二乗誤差が一番大きい第2特徴データを第3特徴データとして特定します。図5に示す例では、第2特徴データA1が、各第1特徴データから最も離れた第3特徴データとなります。生成部14は、第2特徴データA1に基づいて画像を生成します。これにより、新規な作風の画像を生成できます。

【図5】

図6は、3次元座標空間における各第1特徴データの最外形を形成する例を示します。図6に示す例では、最外形を点線の楕円形状で表しますが、ポリゴン形状(多面体形状)で表すことも可能です。図6に示す例において、最外形の外側にある第2特徴データA1およびA8は、特定対象から除外します。あまりにも常識から外れた特徴を取り除く作業です。そして、最外形の内部にある第2特徴データの中から、各第1特徴データとの平均二乗誤差が一番大きい(類似度が一番小さい)第3特徴データを特定します。例えば、第2特徴データA5の平均二乗誤差が一番大きいとします。

第2特徴データA5は、既存の作風によって形成される領域の中で、最も「疎な空間」に存在する特徴データであり、これまでに存在しない作風の特徴データであることを表します。第2特徴データA5に基づいて画像を生成することで、既存の作風によって形成される領域または空間の中であり、かつ、既存にはない作風の画像を自動で生成できます。

【図6】

また、各第1特徴データに基づいて画像を分類する学習が行われた学習モデル(学習済みモデル)12aに、第2特徴データを入力して、第3特徴データを特定することも可能です。

例えば、過去画像の第1特徴データを分類(クラスタリング)する機械学習を行います。このとき、ランダムに新たな第2特徴データを学習モデル12aに入力し、各クラスタ(分類群)と最もかけ離れた(類似度が一番低い)第2特徴データを第3特徴データとして特定します。なお、外部装置から取得した学習済みの学習モデル12aを利用可能です。

以上の処理により、新規な作風の画像の第3特徴データを探索することを容易に行うことができるようになります。

また、学習モデル12aを用いる場合は、最外形の外側にある第2特徴データに対してペナルティ項を設けて損失関数を定義することで、最外形の外側にある第2特徴データが第3特徴データとして特定されにくくできます。換言すると、異常値と考えられる特徴データを簡便に取り除くことが可能です。

以上の処理により、過去画像の作風に基づき形成される領域のうち「疎な領域」を特定でき、これまで評価されてきた作風に基づき、これまでに存在しなかった作風の特徴データを特定できます。すなわち、人に受け入れられやすい作風の画像の特徴データを特定できます。

生成部14は、特定された第3特徴データに基づいて画像を生成します。このとき、生成部14は、生成された画像が、特定された第3特徴データを維持するようにして画像を生成します。

出力部13は、生成部14によって生成された画像を出力します。出力部13は、画像生成要求を行った情報処理装置20に、生成された画像を出力する場合があります。

以上の処理により、新規な作風を示す第3特徴データから生成された画像をユーザに提供できます。

また、生成部14は、画像生成を行う機械学習モデルを利用して探索された第3特徴データから画像を生成することも可能です。例えば、生成部14は、公知の画像生成AIを利用して、第3特徴データを画像生成AIに入力することで画像を生成できます。

以上の処理により、容易に画像を生成でき、第3特徴データを有する複数の画像を容易に生成できます。なお、画像生成AIにより生成された複数の画像をユーザに提示し、少なくとも1つの画像を選択してもらうことで、ユーザの好みを画像生成AIが学習することも可能です。これにより、そのユーザの好みの画像を生成できます。

また、学習モデル12aを用いて、将来の流行を示す画像の第3特徴データを特定できます。学習モデル12aは、各時代に分類された複数の画像から各時代の流行を学習し、さらに、各時代の画像の流行から将来の画像の流行を予測できます。例えば、画像の作風の流行を予測する学習モデル12aを用いることにより、将来人類に好まれる作風を予測し、予測された第3特徴データを特定します。

また、何年先かを指定することで、指定された年に流行すると予測される作風の特徴データを特定することも可能です。生成部14は、予測された特徴データに基づいて画像を生成することも可能です。

以上の処理により、将来流行すると予測される作風の特徴データを特定できます。例えば、10年後、20年後などの将来の所定年を指定することで、その指定年の流行の作風の特徴データを予測可能です。

以上説明しましたように、本発明によって、新規な作風を有するデジタルデータの特定を容易に行えます。

本発明の情報処理方法および情報処理装置では、まず第1ステップで、情報処理装置に含まれるプロセッサが、画像生成指示を受け付けます。

次の第2ステップで、複数の画像におけるN次元の各第1特徴データと、生成指示に応じて生成されるN次元の第2特徴データとの距離を用いて、各第2特徴データの中から、N次元の座標系のなかで「疎な領域」内の第3特徴データを特定します。

最後の第3ステップで、特定された第3特徴データに関する情報を出力します。

本特許は、クリエイターズネクスト社から出願されました。クリエイターズネクスト社は、窪田 望氏によって設立されました。ウェブサイトを見ますと、今までのクリエイターはモノづくりをしていたが、「次の(NEXT)」時代のクリエイターは「笑顔」を創るべきだ、というコンセプトがあります。

窪田 望氏は、過去に日本一のウェブ解析士として2年連続で選出されたという経歴をお持ちです。事業分野は、ウェブサイト制作事業、ウェブ上メディア運営事業、ウェブサイト記事執筆事業などです。

本発明は、AI技術を利用しつつ独自性のある画像を生成するためのアイデアです。独自性や創造性は人間だけの能力と考えられていますが、近い将来、属自制や創造性のある画像が簡単に生成される可能性を秘めた発明です。

発明の名称

新規な作風のデジタルデータの特定

出願番号

特願2022-197061

特許番号

特許第7270894号

出願日

2022.12.09

公開日

2023.05.11(特許公報)

審査請求日

2022.12.09(早期審査対象出願)

登録日

2023.04.28

出願人

株式会社Creator’s NEXT

発明者

窪田 望
国際特許分類

G06T 1/40
G06T 7/00

経過情報

本願は出願日と同日に早期審査請求され、拒絶理由通知を受けずに特許となりました。


キャラクタリアリティエンハンサー


今回紹介する発明は、架空のキャラクターが現実のように感じられる、新しいエンターテインメント体験を実現するためのものです。従来のテキストや音声ベースの対話システムを大きく進化させ、キャラクターが自らの個性やトレンドに合わせて、活動の様子を視覚的コンテンツとして自動生成し、リアリティあふれる存在感を表現します。これにより、キャラクターとのコミュニケーションが一層豊かになり、ファンとの絆を深めることができます。

具体的にどのような発明なのでしょうか。詳説していきます。

この発明の背景には、従来のエージェント対話システムとその限界があります。従来のシステムはユーザとテキストまたは音声で対話を行うもので、特定のキャラクタの個性に基づいて自動的にテキストを返答する技術が開示されています。

この技術はキャラクタに親近感やリアリティをもたらす可能性がありますが、視覚的コンテンツの自動生成に関しては限界があります。特に、キャラクタの活動記録として適した視覚的コンテンツを自動的に生成することはできません。

現実世界の有名人やインフルエンサーは、自身の活動の様子を撮影した写真や動画をSNSに投稿して視聴者の興味や関心を引き付けています。架空のキャラクタについても、視覚的コンテンツはキャラクタの存在のリアリティや親近感を高めるツールとして活用する余地があります。

しかし、キャラクタを被写体とするだけでは不十分であり、背景や活動の内容、服装などがキャラクタの個性や投稿時のトレンドに適したものであることが理想的です。このような視覚的コンテンツを高頻度かつ適時に準備することは容易ではありません。

発明の目的

この発明の目的は、上述の技術的背景に鑑み、キャラクタの活動記録として適した視覚的コンテンツの準備を支援することにあります。このような課題を解決するために、新しい技術の開発が求められています。

発明の詳細

それでは、図面も参照しながら、本発明の詳細について説明していきます。

この発明は、デジタルキャラクターの存在感とリアリティを高めるための革新的なシステムです。図1に示されるように、中心となるサーバ30は、キャラクタのプロフィール情報や、複数の参照キャラクタのプロフィール情報を基に、第1モデルを学習させます。これにより、キャラクタの個性や特徴を理解し、それに基づいて視覚的コンテンツを生成することができます。

【図1】

生成されたコンテンツは、図2に示すように、キャラクタの活動の様子、背景、服装などが、そのキャラクタの個性や投稿時のトレンドに合わせて選定され、キャラクタの存在感やリアリティを一層高めます。

【図2】

さらに、図3に示されるように、サーバ30は、第2モデルを利用して、生成された視覚的コンテンツが特定のキャラクタに適しているかどうかを判断します。第2モデルは、キャラクタの容姿の特徴や、ファンからの反応、コミュニティ内でのコメントや発言の傾向などを考慮して、コンテンツの適切性を評価します。

【図3】

特に注目すべきは、図4に示すDAO(Decentralized Autonomous Organization)の概念の取り入れです。DAOは、ブロックチェーン技術を利用して、組織の意思決定を分散化し、トークン保有者の投票によって行う仕組みです。この発明では、ガバナンストークンの保有者による投票を通じて、キャラクタの容姿や行動、さらには生成されるコンテンツの方向性について、コミュニティが直接的に影響を与えることができます。

【図4】

このような機能の組み合わせにより、本発明は、キャラクタの活動記録としてふさわしい視覚的コンテンツの生成を自動化し、キャラクタのリアリティや存在感を向上させます。そして、DAOによるコミュニティ参加型の意思決定を通じて、新しい形のエンターテインメント体験と、キャラクタとファンとの強い絆の構築を実現します。

以下に本発明の情報処理と機械学習の流れについて、簡単に説明します。

本発明による情報処理と機械学習の流れ

1.情報収集とプロフィール作成
まず初めに、システムは複数のキャラクタのプロフィール情報を収集します。これには、キャラクタの外見、性格、好み、過去の活動履歴などが含まれます。

2.第1モデルの学習(図2)
収集されたプロフィール情報を基に、第1モデルが学習されます。このモデルは、キャラクタの個性や特徴を理解し、それに基づいて視覚的コンテンツを生成するためのものです。

3.視覚的コンテンツの生成(図3)
学習された第1モデルを用いて、各キャラクタに合った視覚的コンテンツが生成されます。これには、キャラクタの活動の様子、背景、服装などが含まれ、それらはキャラクタの個性や投稿時のトレンドに合わせて選定されます。

4.第2モデルの評価(図4)
生成された視覚的コンテンツは、第2モデルによって評価されます。このモデルは、コンテンツが特定のキャラクタに適しているかどうかを判断するためのものです。

5.DAOによる意思決定(図5)
ガバナンストークンの保有者が投票を行い、キャラクタの行動や生成コンテンツの方向性について意思決定がなされます。

【図5】

6.コンテンツの最適化(図6)
投票結果やユーザーからのフィードバックを基に、生成されたコンテンツは最適化されます。これにより、より魅力的でリアリティのあるコンテンツが提供されることになります。

【図6】

7.コミュニティとのインタラクション(図7)
キャラクタはコミュニティ内で活動し、ファンや他のキャラクタとインタラクションを行います。これにより、キャラクタの存在感が高まります。

【図7】

8.フィードバックループの構築(図8)

キャラクタとコミュニティとのインタラクションから得られるデータは、システムにフィードバックされ、継続的な学習と改善が行われます。

【図8】

9.マルチモーダルなコンテンツ生成(図9)
最終的に、テキスト、画像、音声、動画など、マルチモーダルなコンテンツが統合されて生成され、キャラクタの多様な表現が可能となります。

【図9】

これらのプロセスを通じて、本発明はキャラクタの活動記録としてふさわしい視覚的コンテンツの生成と、コミュニティ参加型の意思決定を実現し、キャラクタの存在感やリアリティを向上させます。

この発明は、キャラクタの個性や活動に合わせた視覚的コンテンツを自動生成し、リアリティと親近感を高める技術です。従来のテキストベースの対話システムを進化させ、キャラクタの活動記録としての視覚的コンテンツを生成させます。これにより、現実の有名人やインフルエンサーがSNSで行うような、視覚的コンテンツによるファンとのコミュニケーションが可能となります。

さらに、DAOのガバナンストークン保有者による投票を通じたコミュニティ参加型の意思決定も導入させることで、ユーザーコミュニティがキャラクタの行動やコンテンツの方向性に影響を与えることができ、キャラクタとユーザーとの相互作用が一層深まるのです。

この発明が広く採用されることで、デジタルキャラクターとユーザーとのインタラクションが革新的に進化するでしょう。キャラクターが自動的に個性に合った視覚的コンテンツを生成し、SNSなどで共有することで、ユーザーはキャラクターとの親近感やリアリティをより深く感じることができるでしょう。これにより、バーチャルとリアルの境界がさらに曖昧になり、デジタルキャラクターが私たちの日常生活の一部として存在する未来が広がります。

また、DAOを通じたコミュニティベースの意思決定機能は、ファンやユーザーがキャラクターの行動や発展に直接的に関与する新しい形のエンゲージメントを生み出します。ガバナンストークンの保有者が投票によってキャラクターの特徴や行動を決定することで、キャラクターはコミュニティの意向を反映した進化を遂げ、ユーザーとの相互関係が一層強化されます。

この技術の普及により、エンターテインメント業界だけでなく、教育、広告、コミュニケーションなど、様々な分野での応用が期待されます。例えば、教育分野では、個々の学習者のニーズに合わせて進化する教育キャラクターが登場し、よりパーソナライズされた学習体験が提供されるかもしれません。広告分野では、消費者の嗜好に応じて変化するマスコットキャラクターがブランドのアピールポイントとなり、新しいマーケティング戦略が展開されるでしょう。

さらに、この発明によって、デジタルキャラクターがリアルタイムで外界のトレンドやユーザーコミュニティの意見を反映したコンテンツを生成することで、新しいクリエイティブな表現が生まれ、文化やアートの領域においても新たな可能性が広がることが予測されます。デジタルキャラクターと人間が共創する未来は、私たちの生活をより豊かで多様なものにするでしょう。

発明の名称

情報処理装置、方法、プログラム、およびシステム

出願番号

特願22023-95341

特許番号

特許第7329293号

出願日

2023.6.9

登録日

2023.8.9

審査請求日

2023.6.9

出願人

SNAFTY株式会社

発明者

小池 隆太
国際特許分類

G06T 19/00

経過情報

早期審査に付され、出願公開前に特許査定となっている。



「なりたい」を現実に。スマートイメージ変換


私たちの日常は、常に変化とともにあります。ファッション、スタイル、そして私たち自身の外見。それぞれの変化を楽しみながら、新しい自分を発見する瞬間は、まさに特別な体験です。しかし、その「変わる前」の自分と「変わった後」の自分を、リアルタイムで比較し、体験することは難しいものでした。それは、まるで未来の自分と対話するかのような、ワクワクするような体験。

今回紹介する特許は、そんな夢のような瞬間を、技術の力で現実のものとするものです。具体的にどのような発明なのか、詳説していきます。

近年、画像認識技術は驚異的な進展を遂げており、その応用範囲は日々拡大しています。この中でも、教師あり学習を用いた画像認識は特に注目されています。教師あり学習の特徴として、教師データとして提供される画像に、その画像が示す内容を示すラベルが付与される点が挙げられます。このラベル付きのデータを用いて、機械は学習を行い、新しい画像に対する認識能力を獲得します。

このような中、例えば、眼鏡を掛けた人物の画像と眼鏡を掛けていない人物の画像との相関関係を学習して学習モデルを生成し、生成された学習モデルを用いて、眼鏡を掛けた人物の画像から眼鏡を掛けていない人物の画像を出力する技術が知られています。また、学習モデルの生成段階では、眼鏡を掛けた人物の画像及び眼鏡を掛けていない人物の画像が同一アングルで撮影される必要があり、この課題を解決するために、眼鏡を掛けた人物の画像から眼鏡を検出し、検出された眼鏡を覆うマスクを展開する技術も提案されています。

発明の目的

上記技術的背景の上でも、検出された眼鏡を覆うマスクを展開する技術は、極めて複雑な演算が必要とされ、眼鏡のフィッティングに現実に適用することは困難です。本発明は、上述した課題を解決するためになされたものであり、学習モデルを用いて、第1態様の対象画像を含む本物画像から、第1態様の少なくとも一部が変更された第2態様の対象画像を含む仮想画像を適切に出力することを可能とする画像出力装置及び画像出力方法を提供することを目的としています。

発明の詳細

それでは、図面も参照しながら、本発明の詳細について説明していきます。

この発明は、特定の対象画像(例:人物の画像)の特定の特徴(例:眼鏡の着用)を変更し、新しい画像を生成する技術に関わります。

具体的には、眼鏡を着用している人物の画像から、眼鏡を着用していない同人物の画像を生成すること、またはその逆に、眼鏡を着用していない人物の画像から、眼鏡を着用している同人物の画像を生成することを目的としています。この技術は、GAN(Generative Adversarial Network)を利用しており、生成部と識別部を持つ構造を有しています。

(筆者注)GAN(Generative Adversarial Network)は、深層学習の一種であり、生成モデルと識別モデルを用いて新しいデータを生成する手法です。GANは、2014年にIan Goodfellowらによって提案され、特に画像生成の分野で注目を浴びています。GANの基本的な構造は、「生成ネットワーク(Generator)」と「識別ネットワーク(Discriminator)」の2つのニューラルネットワークから構成されています。

【図1】画像出力装置の概要

画像出力装置100は、教師データ生成部110、学習部120、および出力部130を有しています。画像出力装置100の一例として、この装置は、第1態様の対象画像を含む本物画像から、第2態様の対象画像を含む仮想画像を生成する能力を持っています。

教師データは、第1態様の対象画像を含む本物画像(第1本物画像)と、第1態様の一部が変更された第2態様の対象画像を含む仮想画像(第1仮想画像)を含みます。

ここで、対象画像は人物の画像であり、第1態様の対象画像は装飾品を身につけた人物の画像、第2態様の対象画像は装飾品を身につけていない人物の画像です。

本発明の画像出力装置100は、画像を生成する「生成部」と生成された画像が本物かどうかを識別する「識別部」を有しています。これらは、GAN(Generative Adversarial Network)の構成要素であり、Generator(生成部)とDiscriminator(識別部)として機能します。

学習モデルの調教

生成部と識別部は、識別部の識別結果に基づいて調教されます。つまり、生成部が生成した画像が識別部によって「本物」と識別されるように、その学習モデルが調整されます。

【図2】

図2は、生成部111が第1本物画像(眼鏡を着用した画像)を基に第1仮想画像(眼鏡を着用していない画像)を生成し、識別部112が第2本物画像(実際の眼鏡を着用していない画像)を基に第1仮想画像が本物であるかを識別するプロセスを示しています。

教師データは、クレンジング処理(不適切な教師データを除外する処理)が適用された後、学習部120に入力されます。

学習部120は、教師データ生成部110から入力される教師データに基づいて学習モデルを生成します。具体的には、識別部112によって本物であると識別された第1仮想画像及び第1本物画像を教師データとして、第1本物画像と第1仮想画像との相関関係を学習します。

では、本発明における「学習モデルの調教」について、すこし掘り下げてみましょう。

1.学習フェーズ:
学習モデル(ニューラルネットワーク)は、眼鏡を掛けた人物の画像(第1本物画像)から、眼鏡を掛けていない人物の画像(第1仮想画像)を生成する学習が実行されます。

学習部は、第1本物画像と第1仮想画像のペア(教師データ)に基づいて、両者の相関関係を学習します。

【図3】

ニューラルネットワークの学習は、ニューロン間の重み係数を調整する処理を含むことができます。

2.教師データとクレンジング処理:
教師データは、クレンジング処理が適用された後に学習部に入力されることがあります。

クレンジング処理は、不適切な教師データを除外する処理であり、オペレータによって実行されるか、自動化可能であれば教師データ生成部が自動的に実行することができます。

3.学習モデルの生成:
学習部は、教師データに基づいて学習モデルを生成します。具体的には、第1本物画像と第1仮想画像との相関関係を学習し、学習モデルを生成します。

学習モデルは、画像処理に適したモデルであることが望ましく、例えば、CNN(Convolution Neural Network)を含むことができます。

4.出力フェーズ
学習モデル(学習済みモデル)を用いて、第1態様の対象画像を含む第3本物画像から、第2態様の対象画像を含む第3仮想画像を出力します。

5.GANの利用:
教師データは、GAN(Generative Adversarial Network)を用いて生成されることがあります。

GANを用いて生成された教師データを使用することで、第1態様の少なくとも一部が変更された第2態様の対象画像を含む“本物”画像を用いることなく、学習モデルを適切に生成することができます。

6.生成精度の向上:
第1仮想画像の生成精度が向上し、調教回数(エポック数)を抑制することができます。

【図4】

この情報を基に、学習モデルは、第1本物画像と第1仮想画像との相関関係を学習し、この学習モデルを用いて新しい画像(第3本物画像など)から新しい仮想画像を生成することができます。また、GANを使用して教師データを生成し、学習モデルを適切に生成することができます。クレンジング処理を通じて、不適切な教師データを除外することも可能です。

このような一連の処理の流れをフローチャートにしたものが以下の図5です。

【図5】

この発明の主要なポイントとその効果について簡単にまとめます。

画像の変換と学習モデルの応用
第1態様の対象画像(例えば、装飾品を身につけた人物の画像)から、少なくとも一部が変更された第2態様の対象画像(例えば、装飾品を身につけていない人物の画像)を生成し、これを仮想画像として利用します。

生成された仮想画像が本物であるかどうかを識別し、本物であると識別された場合、それを教師データとして利用します。

この教師データを用いて、第1本物画像と第1仮想画像との相関関係を学習し、学習モデルを生成します。

生成された学習モデルを用いて、新しい本物画像から新しい仮想画像を出力します。

調教の適用
生成部と識別部は、識別部の識別結果に基づいて調教されます。 これにより、生成部と識別部は連携してより精度の高い画像生成と識別を行うことができます。

多様な適用可能性
対象画像の種類や態様は多岐にわたり、例えば、装飾品の有無、髪型の変更、ダイエット前後の体型の変化、異なる時間軸(現在、過去、未来)における人物の画像など、多様なシチュエーションに対応可能です。

本発明により得られる効果としては、以下のような点が挙げられます。

適切な画像出力の実現
このシステムにより、学習モデルを用いて、第1態様の対象画像を含む本物画像から、第2態様の対象画像を含む仮想画像を適切に出力することが可能となります。

リアルタイムでの適用
生成された学習モデルを用いて、新しい本物画像から新しい仮想画像を出力することができ、リアルタイムでの画像変換やシミュレーションが可能となります。

多様なシチュエーションへの対応
さまざまなシチュエーションや条件下での画像生成が可能であり、広範なアプリケーションに対応できます。

この発明によって、特定の対象画像(例:人物の画像)からその変更された形態の画像を生成し、これをもとに学習モデルを構築、新しい画像生成に応用することが可能となります。これにより、従来困難であった多様なシチュエーション下での画像生成やシミュレーションが可能となり、例えば、ファッションやビューティー分野におけるバーチャルトライオンなど、多岐にわたるアプリケーションに利用することができます。

この発明は、例えばオンラインショッピングの眼鏡試着サービスなどに応用可能でしょう。ユーザーが自身の画像をアップロードすると、この技術によって眼鏡を着用していない画像が生成され、さまざまな眼鏡のフレームを試着するシミュレーションが可能となります。また、逆に眼鏡を着用している画像から眼鏡を取り外した画像を生成することも可能です。

本発明では画像生成の精度やリアリティを高めるために、生成部と識別部が相互に影響を与え合いながら学習モデルを調整(調教)します。これにより、より現実に近い画像生成が可能となります。

発明の名称

画像出力装置及び画像出力方法

特許番号

特許第6856965号

出願日

2020.11.27

登録日

2021.3.23

審査請求日

2020.12.22

出願人

株式会社ネフロック

発明者

鶴見 敏行

国際特許分類

G06T 1/40
経過情報

早期審査に付され、拒絶理由通知を受けることなく出願公開前に特許査定となっている。


CONCLUSION

シングルコアからダブルコアへ

chatGPTをはじめ様々なAIが日々進化をしています。日本でも応用サービスもたくさんリリースされており、様々な業務課題解決に繋がりそうなものから ニッチな業界ニーズに対応したものまで、今後もどんどん増えていくと思われます。

以前はchatGPTを中心とした「文章」の生成が話題の中心でしたが、最近では「画像」の生成が注目を浴びています。そしてさらに、今後は「文章生成」と「画像生成」の二つの学習機能・AIを併用して新しい「何か」を生み出す技術が中心になってくるように思います。そうなると、+αとして音声や感情など、、、第三のAIをさらに追加して、まるでCPUのような感じですね。

我々も+VISION内の様々なところで、AIを業務活用していますが実際に活用している人はまだまだ少ないとアンケート調査で出ていました。

それは、以前はchatGPTなど「文章」生成が中心だったからだと思いますが、「文章+○○+○○」のような発想で、用途をイメージしていけば使える範囲も広がってくると思いますし、より身近になるのではないでしょうか。

今回のマガジンは主に「画像」生成でした。AIをイチから作ると考えると大変ですが、みなさんもその先の応用分野を考えてみると意外と参入しやすいビジネスが見つかるかもしれませんね。