無断学習とは、無断で学習すること。
概要
多くの場合、「何らかのデータについて、作成者や権利者に無断で、AI(人工知能)に学習させるためのデータとして利用すること」を指して使用されることが多い言葉である。
なお、AIにおいて「無断学習」という言葉で問題視する際には、「大規模な事前学習によってAIモデルを開発する」という場面での無断学習と、「そういった既存のAIモデルについて、特定の対象を模倣するために個別チューニングさせる」という場面での無断学習、双方に対して用いられる。
同じ「無断学習」ではあるが、この2つには共通しない点も多いため、混同すると話がややこしくなる。できるだけ切り分けて考えたい。
ただし「どこまでを『大規模な事前学習』と捉えてどこまでを『個別チューニング』と捉えるか」について明確に線引きできないケースもあるかと思われるが。
大規模な無断学習
「Stable Diffusion」は、その画像生成AIの開発に「LAION」(Large-scale Artificial Intelligence Open Network)という非常に大規模な画像データセットを利用している。この画像データセットは、インターネット上で公開されている画像をコンピューターによる自動的なクローリングで大量に採取したものである。
「LAION」にどのような画像データが含まれているのか?については、「Have I Been Trained?」というサイトを利用すると確認できる(NSFWフィルターがかかっているが完全ではなく、R-18やR-18Gの画像が表示される場合もあるので注意)。例えば「Hatsune Miku」というキーワードで検索してみると、初音ミクのイラストやコスプレ写真が大量に含まれていることがわかる。
- Have I Been Trained? (キーワードを「Hatsune Miku」に設定したURL)
これらのイラストを描いた絵師たちや、コスプレ写真の被写体らや撮影者らが「画像データに含まれて、AIの学習に使われてもよいですよ」と同意しているわけもない。すなわち無断学習である。
さらに、「NovelAI」や「Waifu Diffusion」といった画像生成AIモデルは、フリーで公開されている「Stable Diffusion」をベースにしつつ、「Danbooru」(ダンボール)という画像サイト内にアップロードされている大量のイラストをファインチューニングに用いたものである。
「Danbooru」側は「NovelAI」の学習に協力したわけではないことを明言しており、おそらく「Waifu Diffusion」の学習に対しても同様であろう。つまり、こちらも自動クローリングによる無断での収集、学習であったとみられる。
さらに問題を複雑化させるのは、「Danbooru」はpixivやTwitter上に投稿されたイラストがよく無断転載される事で悪名高いサイトであったこと。つまり、「イラストをpixivやTwitterに投稿していただけのつもりだったのに、Danbooru経由で知らないうちに勝手にAIに学習されていた」ということが起きていた可能性がある。
個別の無断学習
2021年にマイクロソフトの研究者らから発表されていた「LoRA」(Low-Rank Adaptation)という機械学習に関連する技法がある。要約して言えば、割と少数のお手本を用いて、しかも少ない計算量で、既存のAIモデルをチューニングすることができる……という手法であった。
- [2106.09685] LoRA: Low-Rank Adaptation of Large Language Models
- LoRA: Low-Rank Adaptation of Large Language Models - Microsoft Research
この「LoRA」はそもそもは主に自然言語処理に関する技術であった。だがこれを応用して、画像生成AIのチューニングに使える、しかも個人が行えるレベルで扱える簡便な方法が生み出されてしまい、2022年12月ごろに世間に知れ渡った。
そして、それ以後は「任意のイラストレーターの画風を真似たイラストをAIに生成させる」ことは、こういった手法に関する知識と技術を習得することができる人物ならば誰でも行えるようになってしまった。
実際に「イラストを無断学習され、画風を似せたAIモデルが配布されてしまった」というイラストレーターも既に存在しているようだ。後述する「mimic」騒動のときには結果的に杞憂・冤罪だった「AIを使って、第三者に絵柄が勝手に模倣されてしまう」という懸念が、現実のものとなっているのである。
さらには音声データなどにもこういった手法は応用できるため、「アニメの特定のキャラクターの声で学習させ、そのキャラクターの声や語調で話せる、歌えるボイスチェンジャー」が作成されて販売される、といった事例までもが起きている。
ツイートを読み込み中です
https://twitter.com/miyamoyame/status/1658879014973628419
合法性
「他人の著作物をAIに無断で学習させるようなことは違法ではないのか?」
現在のところ、「少なくとも2023年現在の日本の著作権法の第三十条の四に照らせば、著作権者の利益を不当に害することがない限りは合法である」と解釈されることが多いようである。
(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合
逆に言えば、「著作権者の利益が不当に害された」と司法に判断されれば違法となりうる、ということにもなるが。
言葉としての出現時期
日本での利用者が非常に多い短文コミュニケーションウェブサービス「Twitter」で「無断学習」という言葉を検索すると、2023年5月20日に検索して見つけることができるツイートに限れば、2021年3月までは計4回しか使用されたことがないマイナーな言葉であったし、AIとは無関係の文脈であった。
2021年4月にAIと関連した使用が初めて登場するが、これは「AIチャットボットの学習元がトークアプリでの会話データの無断使用だった」という海外ニュースの紹介という単発的なもので、この1回のツイート以後はその先1年以上も「無断学習」という言葉の使用例はなくなる。
そして、AIの創作物の中でも「イラストを出力するAI」(いわゆる「AIイラスト」)の文脈で、「無断学習」といったような言葉がメジャーとなるのではないか……と予想する投稿が2022年8月1日になされている。これはその後の流れから考えると、実に的を射た未来予測であったと言える。
ツイートを読み込み中です
https://twitter.com/7j543/status/1554098033331417088
この少し前の同年7月に、画像生成AI「Midjourney」がオープンベータとして公開されており、そこから推測したものか。
そして同年8月22日、高性能な画像生成AI「Stable Diffusion」がネット上でフリーで公開された。これはかなりのインパクトのある出来事であった。
ツイートを読み込み中です
https://twitter.com/fladdict/status/1561406014540640256
ツイートを読み込み中です
https://twitter.com/Jin115/status/1562047274058149888
おそらくこの「Stable Diffusion」の公開に伴っての「AIによるイラスト」という話題の高まりを受けて、同年8月23日と8月24日には「『無断転載禁止』に加えて『無断学習禁止』を掲示する時代が来るのか?」という大意の投稿がなされている。
ツイートを読み込み中です
https://twitter.com/ui_nyan/status/1562027631159427072
そして「無断学習」という言葉が一気に使用されるになったきっかけは、「AIに自分のイラストの絵柄を学習させ、模倣したイラストを描くことができるAIを作成できる」と謳うウェブサービス「mimic」が同年8月29日にベータ版をリリースしたことであったようである。
ツイートを読み込み中です
https://twitter.com/illustmimic/status/1564081818441109505
このリリース以後、「本人以外が絵柄を無断学習するようなことがあればイラストレーターにとって感情的にも実害的にも致命的ではないか」という危惧が噴出し、「無断学習」という言葉も多用されるようになったのである。
このウェブサービス「mimic」はそういった悪用がされないような安全策を何重にも採ったものとなった(詳細は「mimic」の記事を参照)ため結果的には「mimicに関しては」冤罪・杞憂であったとも言える。
だが、「自分の絵を無断学習されて、自分の画風で絵を描くAIを勝手に作成されてしまう」という恐れられていた事態は、前述の「LoRA」などの手法の普及によって(「mimic」とは離れたところで)現実に起きてしまうのであった。
関連動画
ニコニコ動画には、同性愛者向けポルノに出演した男優の容姿・声・文章をAIに無断学習させたものと思われる動画が大量にアップロードされている。当該の人物の権利を鑑みて、本記事では動画を掲載しない。
関連項目
- 3
- 0pt