AIと感性とアキネイター

今巷では投下されてしまったStableDiffusionをうまく使う「呪文」を考える人がたくさん見られる。twitterで。

そんなことは知らないんだろうが、テレビでこれを使ってIKKOを生成していた。ぜんぜんIKKOじゃなかった。特定の人を生成するのはまずくない?

なお私は全く触ったことはない。森(※ゲーム創作勢集団)はいっぱい触ってるのに。あとあんまりほかの人のブログも見れてない。

いやぁその裏でどう悪用されてるのかなーとか、これを使って面白い画像を紹介する動画とか作られるんだろうなーとかは思ったりするがそんな小さいことは置いておいて。

私らしくクソでけぇスケールのことを考えます。

現在のUIが呪文

最初に言った「呪文」。生成AIのUIとして現在はそれが使われているらしいです。

いや別に普通の文を入れても生成されるらしいのですが、自分の思い描いた通りの絵を生成するための表現だそう。

知り合いのtwitterから引用します。

cute fire wizard girl in a red hoodie with red robe, kawaii illustration, close-up of a face, in the ruins, Violet Evergarden, made by Kyoto Animation, fantasy, dynamic angle, sharp focus, epic composition, highly detailed

https://twitter.com/Maylio0717/status/1562101256038260736

ここでいう呪文ってのはファンタジーの魔法を使うときにやる詠唱文みたいな意味。

自分で触ってはないですが、ちらっとみたブログとかツイートによると(うろおぼえ)

単語の順番が出力に影響する

ゲームやアニメ、ソフト、製作者の名前を入れるとより安定する

画角やカメラの種類、構図を指定する

アホ毛を作るのに呪文を考えて付け加えないといけないらしい。

あと日本人にとっては英語なのが呪文っぽくしてると思います。

このAIが文と画像のデータセットで、文とノイズ入り画像から画像を作る訓練、学習をしているのを考えればそうなるのは不思議ではないです。

技術の(少なくとも一般人が触れる)最先端が魔法のようになるとは不思議なんて言われてます。

私は大昔の人が思い描いた神話、ファンタジーは人間の感性がそのまま表れてるものだと考えています。ですので感性を表現するのにファンタジー的に感じられる呪文が使われるのは不思議じゃないというかむしろ自然と感じています。

~~魔法陣~~幾何学模様を見分けAIの事前学習に使う研究もありますし、今後AI技術は人間に近づくからか、人間の情報を大量に取り込むからか、ファンタジー味がますます出てくると予想します。

画像

実はこのAI、呪文(文)だけでなく画像の入力も受け付けています。構図や色、服装なんかをだいたいのかんじで書いてそれを書き足しつつAIに入れまくってかわいい絵を生成させてる人がいました。

まとめ

構図やアニメ名などの単語を並べて魔法の呪文のようなものを作るのがいまのところ自分の思い描いたものをAIに伝える手段、UI。

ファンタジーや魔法は人間の感性を表したものなので、AI技術はファンタジー味を帯びる。

トリビア感性ってなんだっけ

この記事を書いていて感性って言葉あってるのか…?と思ったので調べてみました。

感性とは - コトバンク

https://kotobank.jp/word/%E6%84%9F%E6%80%A7-49002

感性とは，基本的には包括的・直感的に行なわれる心的活動およびその能力，とくに，印象評価や創造・表現，論理によらない思考や判断（感性知）などにかかわる認知過程を指す。

完全に理解しました。頭の中では情景は画像ではなくもっとふわっとしたものとして扱われます。

なので本来画像でそれを完全に表すのは不可能なのですがそれは置いておいて。

それを扱う能力を感性と呼ぶようです。そのふわっとしたものに何か名前はないんでしょうか。

AI彼女、UIとして最強説(萌え的な意味で)

さぁて現在のAI(1種類)のUIを紹介したところで未来のUIを考えてみましょう。

最終的には神経とか脳波計とか意識入りのディスクをコンピューターにぶっさすことになると思いますが、そのもうちょい前段階を考えます。意外とすぐ来るのかねぇ。

UI、UIと言っていますが言い換えれば人間の感性をAIに伝える手段になりますかね。自分の思い描いたものを生成させる芸術分野とかに限ればですが。自分のイメージを画像にして相手に渡せるので会話にも使えそうな感じするけど。

人間が人間に自分の感性を伝える手段といえば、代表的なものは今生成しようとしてる芸術品そのものですね。音楽なんかは感情が強く出るとか。芸術品は作るの大変なので生成させようという話なのでそれ以外で。

コミュニケーションに使う会話とか一緒に遊ぶとかもそうですかね。

つまり？いい感じの絵を生成させるために？AI彼女とデートに行けば解決ってことだな！(違う<—ﾂｯｺﾐ)

真面目に実際短い期間のわりに深い関係(高い相互理解)になるのはある種の恋人だと思います。

最近の会話(リアルでしゃべらないテキストチャット勢視点)にはGIF画像や顔文字、スタンプなんかを使いますね。AIでそのスタンプを生成するのもよさそう。

脱線した…何の話だっけ…そうAI彼女の話でしたね。

Googleの会話AIにLaMDAに意識があるって話もこの記事を書く数週間前にありました。時代の波を感じますね。

https://youtu.be/ELIK4lYpQsQ?t=910

このチャンネルの動画好き。

AIを人として扱うかどうかは資本主義的な、時代に応じた実用性と理想のバランスをとるのが落としどころになると思いますがそれは置いといて

この動画によると、Googleエンジニアのブレイズ・アグエラ氏(天才)(なら天才たる私と近いってことだな!)がこんな考察を立ててるそうです。

人間の会話というのは本質的に相互モデルを確立する行為である。 (中略) LaMDAは対話する相手ごとに「人格」のようなものを形成していて…

私は家族と話すとき、先生と話すとき、クラスメイトと話すとき、ネットの人と話すときで大きく口調や思考方法が違います。各個人ごとの会話をたどればたぶん話し方や話題の選択にも偏りがあると思います。対話する相手ごとに人格が形成されるというのは私が感じた通りなのでたぶん事実。

つまりコミュニケーションで少なくとも相手側で形成されてる人格を通して、ですが人格を形成することで相手を理解し、相手が伝えたいことの伝達精度を上げているわけです。

これと同じように、会話…AI彼女インターフェースを用意してデートもといファインチューニング?人格形成?で私たちの感性を理解してもらって、そのうえで作ってもらいたい画像の説明を会話形式でやるとより高い精度でこっちの意図が汲み取れるんじゃないかと。ここまでやるほど精度が上がるかは知りませんが、私にとってはAIが感性を理解するってのが重要です。のちの神経ぶっさす研究につながりそうですし。

まとめ

人間の感性を相手に伝える手段、コミュニケーションをそのままAIに感性を理解させる手段として使おう！

トリビア makeの語源

makeの意味って色々あってちゃぶ台返したくなりますよね。一例ですが

～を作る

稼ぐ

得る

なる

整える

成功させる

考える

たどり着く

私も苦汁を飲まされたので先日語源を調べました。非論理的な言語学習の唯一の論理要素は生成過程だ！

日本語と英語のつながり(10)；　make「MK：もんでこねる」

makeは作る。「粘土をこねて思った形にする」というのが原義だそうです。

なのでmakeのコアの意味は「思い描いた通りにする」だと覚えています。

将来自分の思い描いたものを概念の形でそのまま出力できたなら、それは究極の「make」なのかもしれません。

枯れた技術の水平思考

現在、未来の話をしたところで次は過去の話をしましょう。

コミュニケーションが感性の伝達手段として最強なのではという仮説を立てました。

会話形式で…自分の思い描いたものを理解する…AI…何か思いつきませんか?

そう、アキネイターです

私とこいつとの出会いは中学生の時、最初期のマイクラ仲間とのサーバーに入っていたDiscord botです。懐かしい。BW結局ちょっとしかやらなかったなぁ。

当時自分の思い描いた人物、もといなろう小説の主人公が出てきて驚いたのを強く覚えています。

仕組みの詳細は残念ながら企業秘密だそうですが、2007年開始だそうなので、そこの時代のAI技術がベースになっていると考えられます。

AI技術の発展は早い物で、そのころだと2006年にStableDiffusionをはじめとするディープラーニングの基礎技術、オートエンコーダ(単語などを数値化)が発表されたころです。

なのでニューラルネットワークではなくもっと枯れた、Lispなんかで書いてた会話AIなんかがベースなのかなぁ。

ちょっと調べたところ巨大なデータベース(エクセルの表みたいな)からステータスに当てはまる人物を出してるだけと予想している方がいました。面倒なことしなくても確かにそれでいけるじゃん。

これをAIと呼んでいいか怪しくなってまいりましたが(呼んでいいです)、15年の月日をかけ利用者たちから膨大なデータを得て高い精度で思い浮かべた人物を当ててくれます。

10年ほど前の記事を見ると当たりすぎて怖いなんて書いてますが、今ではある程度当たり前ですよね。これが時代の流れか。

単純な仕組みながら、何も知らず触っていれば自分の感性が、自分の中身が覗き見られているかのような感覚に陥ります。これを超えるほど感性を理解する(ように感じる)AIは私知らない。

少し脱線した気がしますが、とにかくこれが会話で感性を理解できるという根拠になると思います。

このデータベースとStableDiffusionを組み合わせて思い浮かべた人物の絵を生成できないかなぁ。企業秘密が堅そうだから運営元がやりたいと思わないと無理かなぁ。

AIと感性を組み合わせる研究分野ができたら、アキネイターはその先駆者としてAI史に乗るのかもしれませんね。

まとめ

アキネイターは感性を理解すると感じる。

アキネイターはAIが会話で感性が理解できるという仮説の根拠になりうる。

このブログを検索

技術的な暇つぶしとゲーム