Stable Diffusion 夢の機械(画像生成AI)について-33

About Stable Diffusion Dream Machine (Image Generation AI)-33

 stable diffusionによる無意識の映像化は、言葉という理性や意識があって初めてどうやら成り立つらしい。
 意識なく、無意識ばかりなら、夢中毒、映像中毒で、刺激に反応するだけの単純で無思考なアメーバのような状態になるかもしれない。
 混沌とした無意識を言葉で呼び出すのは、酔っ払いを演じる役者が本当に酒を飲んでいないのと似てる気もする。無意識の暴風や狂気を観賞に堪える姿で画面上に現すのは、どこか客観的に醒めている必要がある。
 確か『夢の果てまでも』でも夢映像中毒になった人物は、言葉によって、その依存状態を抜け出ていた気がする。
 想像できて言葉で表せるものならおおよそstable diffusionは写真の如く写実的に画面上に再現してしまう。
 もし創作者がその気になれば、奇怪でおぞましい光景や、酸鼻を極めた残酷な情景、性的な幻想風景などをいくらでも産み出すことができる。もちろん、爽やかだったり一般的だったり常識的だったり綺麗だったりするものも、言葉によって自由に生成できる。
 では、果たしてここには「夢中毒」のような病的な依存性はないだろうか。各個人が理想的な夢の桃源郷で無意識の沼に水没してしまうような状態。

 The visualization of the unconscious by stable diffusion is apparently only possible when there is reason and consciousness in the form of language.
 If there is no consciousness and only unconsciousness, one may be addicted to dreams and images, like a simple, unthinking amoeba that only reacts to stimuli.
 It seems to me that invoking the chaotic unconscious with words is akin to an actor playing a drunk who is not really drunk. It is necessary to be somewhat objectively sober in order to present the storm and madness of the unconscious on the screen in a form that is bearable to watch.
 As I recall, in “Until the End of the World”, the character who became addicted to dream images was able to escape this state of dependence through words.
 If it can be imagined and expressed in words, stable diffusion can reproduce it on the screen as realistically as a photograph.
 If the creator is so inclined, he or she can produce any number of bizarre and horrifying sights, extremely acidic and cruel scenes, and sexual fantasies. Of course, we can also freely create things that are refreshing, common, sensible, and beautiful through words.
 But is there really no pathological dependence on such things as “dream addiction” here? A state in which each individual is submerged in a swamp of unconsciousness in a paradise of ideal dreams.

Stable Diffusion 夢の機械(画像生成AI)について-32

About Stable Diffusion Dream Machine (Image Generation AI)-32

 私にとってstable diffusionは一種の詩的降霊装置なのかもしれない。降霊呪文は散文詩で、魔方陣は「ブラックボックス」と一部に悪名高いらしいAIプログラム。
 物質世界に存在しないような映像が言葉で呼び起こされる。『夢の果てまでも』では脳波から直接読み取った、睡眠中の夢映像をモニタ上に映していた。一方、stable diffusionでは頭の中にあるぼんやりしたイメージを一度、言葉に変換する必要がある。それら呪文としての詩はAIによって映像に変換される。
 脳や心から直接イメージが映像化される未来方式と異なり、心に浮かぶイメージを言葉に変換し、それを再度AIで映像にする。心像を映像化する、という点で、「脳と映像モニタのダイレクト直結」に比べると、AIのstable diffusionは言語・詩を経由する映像なので、心像をどうしても意識化する必要がある。
 ダイレクト方式なら、言葉も意識化も不要で、ぼんやりとしたまま、テレビやネット動画を見るように、自らの夢映像や心像を眺め続けてしまうかもしれない。

 For me, stable diffusion may be a kind of poetic seance device. The seance spells are prose poems, and the magic circle is an AI program that some say is infamous as a “black box”.
 Images that do not seem to exist in the material world are evoked with words. In “Until the End of the World”, dream images during sleep, read directly from brain waves, were projected on a monitor. In stable diffusion, on the other hand, the hazy images in the mind need to be converted into words. Those poems as incantations are converted into images by the AI.
 Unlike the future method, in which images are visualized directly from the brain or mind, images in the mind are converted into words, which are then visualized again by AI. Compared to the “direct connection between the brain and the image monitor,” AI’s stable diffusion is an image via language and poetry, so it is necessary to make the mental image conscious.
 With the direct method, there is no need for language or consciousness, and the user may continue to view his or her own dream images and mental images as if watching TV or Internet video, in a blurred state.

Stable Diffusion 夢の機械(画像生成AI)について-31

About Stable Diffusion Dream Machine (Image Generation AI)-31

 無意識というのは自然の一部で、易経などの卜占は無意識の現れを見る。大げさな話だが古代からの占星術では、大宇宙での星々の動きが個々人の小宇宙に影響を与えるとされる。
 頭で計算された理性や論理などを超えた世界、宇宙や自然の広大な、人知を超えた何かが絵や映像の中にどことなく感じられる方が私は美しいと思ってしまう。
 タルコフスキーが自身の映画について「特に脈略のない映像が冒頭にあるのは何故なのか?」と問われ、「特に意味はなく、ただ詩的なもの、と答えるしかない」と(いうようなことを)書いていたのを思い出す。
 哲学を超えたところに詩がある。論理的な意味を超えたところに詩的感興があるらしい。

 The unconscious is part of nature, and divination such as the I Ching sees manifestations of the unconscious. It may sound exaggerated, but in ancient astrology, the movement of the stars in the macrocosm affects the microcosm of each individual.
 I find it more beautiful when I can somehow sense something in the pictures and images that transcends reason and logic calculated by the mind, the vastness of the universe and nature, something that transcends human knowledge.
 When Tarkovsky was asked about his films, “Why is there an image at the beginning that has no particular context?” I am reminded of Tarkovsky’s statement about his films, “There is no particular meaning, it is just poetic,” or something like that.
 Poetry is beyond philosophy. It seems that poetic excitement exists beyond logical meaning.

Stable Diffusion 夢の機械(画像生成AI)について-29

About Stable Diffusion Dream Machine (Image Generation AI)-29

 言葉でAIに指示を出す。「花束を持った女性」。AIモデルや描画方法の種類によって、描かれる図像は様々だ。
 どのような服を着て、どこにいて、どんな顔をしているのか、葬儀なのか結婚式なのか、誕生日なのか、買い物帰りなのか、ありとあらゆる考えられる状況を、召喚用のプロンプト呪文として用意する。光の強さ、色、雰囲気、小物、靴、等々。事細かな指示用の文言は「呪文」だとはよく言ったものではある。
 陶芸で最後に窯に火を入れた後、器の色彩が窯変するように、stable diffusionでもAIモデルデータと呪文の組み合わせを数限りなく何回も試行し、最終的に「これでOK」となった時点でも、やはり最終出力での窯変は不可避だ。ここが偶然性を考慮しなければならない箇所で、徹底的に呪文を細目化しても、やはり完全に何か予測した物と同一画像を出力するのは難しいだろう。
 こちらで意図したものを超えた、もしくは的外れなものが出力されることもstable diffusionの面白いところである。
 どのように偶然性を考えるか、という行程も、生成画像AIの楽しい部分だと思う。この「避けられない偶然性」といった画像AIの特徴が、怪談の入り込む余地もあり、念写にも通ずる、感興を呼び起こす点だと私は思う。

 Words are used to give instructions to the AI for the generated image. “A woman with a bouquet of flowers”. Depending on the AI model and the drawing method, the image drawn will vary.
 What kind of clothes, where she is, what she looks like, whether it is a funeral, a wedding, a birthday, a shopping trip, or any other possible situation, are prepared as prompt spells for the summoning. Light intensity, color, atmosphere, accessories, shoes, etc. It is often said that detailed instructions are “spells”.
 Just as the color of a ceramic vessel will change after the kiln is fired for the final time, so too, with stable diffusion, the combination of AI model data and spells is tried countless times, and even when the final “OK” is reached, kiln changes are inevitable in the final output. This is the point where coincidence must be taken into account. Even if the spells are thoroughly refined, it will still be difficult to output an image that is completely identical to something predicted.
 The fact that the output may be beyond or off the mark from what we intended is one of the interesting aspects of stable diffusion.
 The process of how to consider coincidences is also a fun part of generated image AI. I think that this characteristic of image AI, such as “inevitable coincidence,” is a point that evokes a sense of excitement, which is similar to psychic photography, and also has room for ghost stories.

Stable Diffusion 夢の機械(画像生成AI)について-28

About Stable Diffusion Dream Machine (Image Generation AI)-28

 stable diffusionで画像生成をしていると、「これらは実在しない幻のようなものだ。しかし本当に存在しないのだろうか。AIによる膨大な画像処理の際に、何かが映り込むようなことはないのだろうか」という思いに囚われることがある。
 そのような考えは妄想なのだろうが、面白い気もする。
 肉体を失った存在が、物質化の手段として、これまでの怪談スタンダードである写真やビデオではなく、生成画像AIの画面に現れる。
 そのような可能性は、「全くない」とは思えない。
 現実に存在しない風景や夢、幻想の類を写真風に出力するのだから、そのような空想を持ちながら作業を行うのも許されるだろうか。
 stable diffusionなどの画像生成AIを使っていると、光を使わない写真、ということで「念写」を思い起こすこともある。
 カメラを使わず精神力のみで暗闇のフィルムを感光さしめるオカルト的な超能力だが、画像生成AIは少しこれと似たところがある。
 stable diffusionは二十一世紀の新しい念写である、と言っても良いかもしれない。

 When I am doing image generation with stable diffusion, I am often stuck with the thought, “These are like illusions that don’t exist, but do they really not exist? But do they really not exist?
I sometimes wonder if something is reflected in the vast amount of image processing by AI.”
 Such thoughts may be delusional, but I find them interesting.
 A being that has lost its physical body appears on the screen of a generative image AI as a means of materialization, not through photographs or videos, which have been the standard for ghost stories.
 Such a possibility does not seem “entirely unlikely.”
 Since the output is a photographic-like output of a landscape, dream, or fantasy that does not exist in reality, would it be permissible to work with such fantasies?
 Using image generation AI such as stable diffusion sometimes reminds me of “psychic photography,” which is photography without using light.
 This is an occult-like supernatural ability to make a film in the dark become illuminated by mental power alone, without the use of a camera, and image generation AI is somewhat similar to this.
 We may say that stable diffusion is the new psychic photography of the 21st century.

Stable Diffusion 夢の機械(画像生成AI)について-27

About Stable Diffusion Dream Machine (Image Generation AI)-27

 手塚治虫の『火の鳥・未来編』でウーピーのタマミが主人公に見せる想像の景色。AIが作り出す束の間の幻想世界。『夢の果てまでも』で描かれた夢映像中毒となってしまう人物。ありきたりだが、精神破綻の狂気すれすれに美が潜むことも確かにあるらしい。
 唐突だが、ここで人間の脳の三重構造について考えてしまう。モデルデータ配布サイトなどでstable diffusionによる画像を見ていると、人間の本能を司るといわれる脳幹、爬虫類脳と呼ばれる最古の生存根源的な部分が、無意識を露わにする如く、凶暴かつ露骨に現れ出ているように思うことがある。
 生存に不可欠な剥き出しの欲望、恐怖、暴力、性、生死、血、無意識。気取りようもなく、上品でもない野蛮で強烈な部分だが、これらを司る無意識的な脳幹・大脳辺縁系と、理性・思考・言葉を司る意識的な大脳新皮質が上手いこと統一され、画像表現となるとき、そこに乱調と均整を超えた、見事な美が現れるのかもしれない。

 The imaginary landscape shown to the protagonist by Tamami the Whoopi in Osamu Tezuka’s “Phoenix: A Tale of the Future”.The fleeting fantasy world created by AI. The character who becomes addicted to dream images in “‘Until the End of the World’”. It may sound cliched, but it is true that beauty can be found just below the edge of insanity in mental breakdown.
 Suddenly, I am thinking about the threefold structure of the human brain. When I look at stable diffusion images on model data distribution sites, I sometimes think that the brainstem, which is said to control human instincts, and the oldest fundamental part of the brain for survival, called the reptilian brain, appear in a ferocious and blatant manner, as if revealing the unconsciousness of the brain.
 The bare desires, fears, violence, sex, life and death, blood, and unconsciousness that are essential for survival.When the unconscious brainstem and limbic system, which governs these aspects, and the conscious neocortex, which governs reason, thought, and language, are successfully unified and expressed in images, a stunning beauty may emerge that transcends disorder and uniformity.

Stable Diffusion 夢の機械(画像生成AI)について-26

About Stable Diffusion Dream Machine (Image Generation AI)-26

 stable diffusionでの画像生成は、「絵を描く」というよりも「具材を選んだ上で、指示書を作成する」という作業に近い。
 素材になるAIデータモデルは数多くあり、またそれらを混ぜ合わせて或る程度独自の物も作成できるが、どのモデルを使うかは画像生成で非常に重要だ。
 素材に対しAIは愚直なまでに指示書に基づいて処理する。意識のある機械が画像生成の対応をしているように錯覚してしまいそうだが、唯の自動処理だ。思いもかけないAIの不気味な破綻画像はその幻想を壊してくれる暫しの冷や水ではあった。
 美とは何か、「こんなようなものである」、とAIは理解しているのだろうか。美しい図像を出力した直後に、正視に耐えぬほどおぞましい画像を出力する仕組みとは一体どういうものだろう。
 stable diffusionは使う人それぞれによって、各人の心の奥底にある様々な妄想や夢を写す幻想写真機であるとは言える。

 Generating images with stable diffusion is more akin to creating instructions after selecting materials than it is to “painting” a picture.
 There are many AI data models that can be used as materials, and they can be mixed to create a certain degree of originality, but which model to use is very important in image generation.
 The AI processes the material based on the instructions to the point of being foolish. It may seem as if a conscious machine is handling the image generation, but it is merely an automatic process. The unexpected AI’s eerily broken images were a brief cold shower of water that broke that illusion.
 I wonder if AI understands what beauty is, and that it is something like this. What is the mechanism that outputs a horrifying image immediately after outputting a beautiful image?
 It can be said that stable diffusion is a fantasy photography machine that captures various fantasies and dreams deep inside the mind of each user.

Stable Diffusion 夢の機械(画像生成AI)について-25

About Stable Diffusion Dream Machine (Image Generation AI)-25

 stable diffusionを手にして以来、私は自身の心眼、記憶と感情によって変形され彩色された心の奥にある景色を出力していた。
 自身の中にあるイメージをstable diffusionでそれなりに近付けて形作るのは面白くはあるがそこまで簡単ではなかった。何度も工夫して言葉を選び替え、並び替え、AIモデルを幾つも取り替えたところで、どうしても思い描く心像に近付かず上手くいかないことも何度もある。数百枚以上の画像生成を行って、良いと思う図像が数枚あれば良い、とすべきであるということも次第に分かってきた。
 AIが出力する画像の中には、時々、背景と服装や肉体が一体化しているというような(中にはもっと凄まじいものもあるが)想像を超えてグロテスクに破綻したものもあった。そのような酷いエラー画像に出くわす度に「これは自身の心が生んだ怪物なのかも」と思わないこともなかった。しかし、それ以上に「そもそもこれは美意識など無いプログラムが機械的に、ただAIの規則に従って出力してるだけなのだ」ということを改めて思い出させた。

 Ever since I got my hands on stable diffusion, I have been outputting the landscape in the back of my mind, transformed and colored by my mind’s eye, memories, and emotions.
 It was interesting, but not easy, to shape the image in my mind with stable diffusion to a reasonable degree. After many attempts to choose and rearrange words and AI models, I found that many times I could not get close to the mental image that I had in my mind. Gradually, I learned that I should generate more than several hundred images and only need a few that I think are good.
 Some of the images that the AI produced were sometimes grotesquely messed up beyond imagination, such as when the background and the clothing or the body were one and the same (some of them were even more horrendous than others). Whenever I came across such a terrible error image, I could not help but think, “Maybe this is a monster created by my own mind.” But more than that, I was reminded that “this is just a mechanical output by a program without any sense of aesthetics, following the rules of AI.”

Stable Diffusion 夢の機械(画像生成AI)について-24

About Stable Diffusion Dream Machine (Image Generation AI)-24

 戦争関連の或る種の図像をstable diffusionで呼び出すのは一体、悪なのだろうか。平安貴族の十二単は唯のデータ不足なのかもしれない。AIで出力が禁じられる画像とはどのようなものだろうか。
 日本語変換ソフトで差別語などとして存在を否定され、変換されない単語、言葉狩りの対象である単語たちと同じ問題のようだった。
 一方が言葉狩りであれば、一方は画像狩りというところだろうか。
 日本語変換では「差別語変換辞書」というものが有志によって作られているように、stable diffusionのAIモデルに足りない、もしくは禁じられた図像は自身でデータを作成するか、もしくは有志によって作成されたloraと呼ばれるような画像プラグインを探すしかなさそうだった。
 だが、わざわざそこまでして禁じられた図像を召喚することに私も特にこだわりはなかった。
 禁止された決まりを破ることに特別、快楽を感じる訳でもなかった。技術的な手間を考えれば、必要最低限なもので、納得できるものを出力できればそれで良かった。
 しかし、今後、よりAIでの画像生成が一般的になれば、そのときAIモデルデータ内に存在しない図像は当然出力できない訳で、「着物」という言葉で中国風の着物が画像として出てくるのか、韓国風の物なのか、そこで「日本の着物」と限定しても、やはり(現時点のように)中華風の着物が出てくるのであれば、表したい和風の景色が「ハリウッド映画製日本」のようにどこか大味で、大雑把なものになりそうだ。

 Is it evil to call up certain war-related images with stable diffusion? What kind of images are forbidden to be output by AI?
 It seems to be the same problem as that of words that are not converted by Japanese conversion software because their existence is denied as racist words, or words that are the target of word-hunting.
 If one is word-hunting, the other is image-hunting.
 As a “discriminatory word conversion dictionary” has been created by volunteers for Japanese language conversion, it seemed that the only way to get images that are missing from the AI model of stable diffusion or forbidden was to create their own data or find an image plug-in called “lora” created by volunteers. However, it seemed that it would be difficult to go to such lengths and find a forbidden image.
 However, I was not particularly concerned about going to such lengths to summon forbidden images.
 Nor did I feel any particular pleasure in breaking a prohibited rule. Considering the technical effort involved, I was happy as long as I could output something satisfactory with the minimum necessary.
 However, if AI image generation becomes more common in the future, images that do not exist in the AI model data will naturally not be output. At that time, will the word “kimono” produce images of Chinese-style kimonos or Korean-style kimonos? Even if we limit the term to “Japanese kimono,” if Chinese-style kimonos still appear (as they do at present), the Japanese-style scenery we want to represent will likely be somewhat rough and sketchy, like “Japanese scenery created by Hollywood movies”.

Stable Diffusion 夢の機械(画像生成AI)について-23

About Stable Diffusion Dream Machine (Image Generation AI)-23

 私は『原神』や『聊斎志異』が好きなので、中国文化の図像を呼び出すことで満足はできたが、しかし、やはり深く心の奥底にある日本的なイメージを存分に映像として具現化したい、という止むに止まれぬ思いはあった。
 (先述したが)AIの問題は権力や政治力、経済力の問題でもあるのだと分かった。
 AIモデルデータが作れなければ、少なくともstable diffusionという道具の中では、その国の歴史や文化は存在しない、ということになるのだった。
「平安時代の貴族の屋敷」という言葉で、それらしき映像が出てこなければ、やはりそれはAI写真では召喚のしようがなく、平安時代というものが存在しない世界が、そこでは標準になってしまう。
 同じような問題として戦争関連の或る種の図像も通常では出力が出来ないようになっているようだった。
 何が正しくて何が間違っているか、何が良くて何が悪いか、というような価値基準がAIのモデルデータにも反映しているようだった。

 I was satisfied with invoking the iconography of Chinese culture because of my love of “Genshin Impact” and “Liaozai Shii,” but I still had an irresistible desire to generate images of Japanese imagery that were deeply rooted in my mind.
 (As mentioned earlier,) I realized that the problem of AI is also a problem of power, political power, and economic power.
 If AI model data could not be created, the history and culture of a country would not exist, at least in the tool called stable diffusion.
 If the term “Heian-period aristocratic residences” does not produce any images, there is no way to summon such images in AI photographs, and a world in which the Heian period does not exist becomes the norm.
 Similarly, certain war-related images are not normally output.
 The AI model data seemed to reflect such value criteria as what is right and wrong, what is good and what is bad.