1 / 2
プロンプト研究:Transformerの仕組み:過去絵倉庫シリーズ
引用元URL: https://www.slideshare.net/ShotaImai3/chatgpt-254863623/ShotaImai3/chatgpt-254863623 DiffusionモデルはCLIPというオープンソースのデータセットを使用しているそうです。 CLIPにもTransformerのシステムが使われているということなので、仕組みとしてはこれと同じだと思います。 ただ、データセット内にあるパラメータは数千億個、次元にして何十万次元の関数になっているそうなので、全文を検索することは不可能です。 そこで性質が近い画像群をカテゴリとしてひとまとめにして、大まかにカテゴリを絞ってから、詳しく探す――ということをやっているそうです。 https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion5B-H-14&useMclip=false このサイトからデータセットの中身が検索できるので、 \"cute girl\"と入れたときと \"Masterpiece,best quality,cute girl\"と入れたときに出てくる画像の違いを見てみれば、 どうしてこの呪文が先頭に来るのかが分かると思います。