無断学習単語

1件
ムダンガクシュウ
4.6千文字の記事
  • 3
  • 0pt
掲示板へ

無断学習とは、断で学習すること。

概要

多くの場合、「何らかのデータについて、作成者や権利者断で、AI人工知能)に学習させるためのデータとして利用すること」をして使用されることが多い言葉である。

なお、AIにおいて「無断学習」という言葉で問題視する際には、「大規模な事前学習によってAIモデル開発する」という場面での無断学習と、「そういった既存のAIモデルについて、特定の対を模倣するために個別チューニングさせる」という場面での無断学習、双方に対して用いられる。

同じ「無断学習」ではあるが、この2つには共通しない点も多いため、混同すると話がややこしくなる。できるだけ切り分けて考えたい。

ただし「どこまでを『大規模な事前学習』と捉えてどこまでを『個別チューニング』と捉えるか」について明確に線引きできないケースもあるかと思われるが。

大規模な無断学習

Stable Diffusion」は、その画像生成AI開発に「LAION」(Large-scale Artificial Intelligence Open Network)という非常に大規模な画像データセットを利用している。この画像データセットは、インターネット上で開されている画像をコンピューターによる自動的なクローリングで大量に採取したものである。

LAION」にどのような画像データが含まれているのか?については、「Have I Been Trained?」というサイトを利用すると確認できる(NSFWフィルターがかかっているが全ではなく、R-18R-18Gの画像が表示される場合もあるので注意)。例えば「Hatsune Miku」というキーワード検索してみると、初音ミクイラストコスプレ写真が大量に含まれていることがわかる。

これらのイラストを描いた絵師たちや、コスプレ写真の被写体らや撮者らが「画像データに含まれて、AIの学習に使われてもよいですよ」と同意しているわけもない。すなわち無断学習である。

さらに、「NovelAI」や「Waifu Diffusion」といった画像生成AIモデルは、フリー開されている「Stable Diffusion」をベースにしつつ、「Danbooru」(ダンボール)という画像サイト内にアップロードされている大量のイラストファインチューニングに用いたものである。

Danbooru」側は「NovelAI」の学習に協したわけではないことを明言しており、おそらく「Waifu Diffusion」の学習に対しても同様であろう。つまり、こちらも自動クローリングによる断での収集、学習であったとみられる。

さらに問題を複雑化させるのは、「Danbooru」はpixivTwitter上に投稿されたイラストがよく無断転載される事で悪名高いサイトであったこと。つまり、「イラストpixivTwitter投稿していただけのつもりだったのに、Danbooru経由で知らないうちに勝手にAIに学習されていた」ということが起きていた可性がある。

個別の無断学習

2021年マイクロソフト研究者らから発表されていた「LoRA」(Low-Rank Adaptation)という機械学習に関連する技法がある。要約して言えば、割と少数のお手本を用いて、しかも少ない計算量で、既存のAIモデルチューニングすることができる……という手法であった。

この「LoRA」はそもそもは自然処理に関する技術であった。だがこれを応用して、画像生成AIチューニングに使える、しかも個人が行えるレベルで扱える簡便な方法が生み出されてしまい、2022年12月ごろに世間に知れ渡った。

そして、それ以後は「任意のイラストレーターの画真似イラストAIに生成させる」ことは、こういった手法に関する知識と技術を習得することができる人物ならばでも行えるようになってしまった。

実際に「イラストを無断学習され、画を似せたAIモデルが配布されてしまった」というイラストレーターも既に存在しているようだ。後述する「mimic」騒動のときには結果的に杞憂冤罪だった「AIを使って、第三者に絵柄が勝手に模倣されてしまう」という懸念が、現実のものとなっているのである。

さらには音データなどにもこういった手法は応用できるため、「アニメ特定キャラクターで学習させ、そのキャラクター調で話せる、歌えるボイスチェンジャー」が作成されて販売される、といった事例までもが起きている。

合法性

「他人の著作物をAI断で学習させるようなことは違法ではないのか?」

しもが疑問に思う点であろうかと思われる。

現在のところ、「少なくとも2023年現在日本著作権法の第三十条の四に照らせば、著作権者の利益を不当にすることがない限りは合法である」と解釈されることが多いようである。

(著作物に表現された思想又は感情の享受を的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当にすることとなる場合は、この限りでない。
 一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
 二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言、音、像その他の要素に係る情報を抽出し、較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
 三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合

逆に言えば、「著作権者の利益が不当にされた」と法に判断されれば違法となりうる、ということにもなるが。

言葉としての出現時期

日本での利用者が非常に多い短文コミュニケーションウェブサービスTwitter」で「無断学習」という言葉を検索すると、2023年5月20日検索して見つけることができるツイートに限れば、2021年3月までは計4回しか使用されたことがないマイナーな言葉であったし、AIとは関係の文脈であった。

2021年4月AIと関連した使用が初めて登場するが、これは「AIチャットボットの学習元がトークアプリでの会話データ断使用だった」という海外ニュース紹介という単発的なもので、この1回のツイート以後はその先1年以上も「無断学習」という言葉の使用例はなくなる。

そして、AI創作物の中でも「イラストを出するAI」(いわゆる「AIイラスト」)の文脈で、「無断学習」といったような言葉がメジャーとなるのではないか……と予想する投稿exit2022年8月1日になされている。これはその後の流れから考えると、実に的を射た未来予測であったと言える。

この少し前の同年7月に、画像生成AIMidjourney」がオープンベータとして開されており、そこから推測したものか。

そして同年8月22日、高性な画像生成AIStable Diffusion」がネット上でフリー開された。これはかなりのインパクトのある出来事であった。

おそらくこの「Stable Diffusion」の開に伴っての「AIによるイラスト」という話題の高まりを受けて、同年8月23日8月24日には「『無断転載禁止』に加えて『無断学習禁止』を掲示する時代が来るのか?」という大意の投稿がなされている。

そして「無断学習」という言葉が一気に使用されるになったきっかけは、「AI自分のイラスト絵柄を学習させ、模倣したイラストを描くことができるAIを作成できる」と謳うウェブサービスmimic」が同年8月29日ベータ版をリリースしたことであったようである。

このリリース以後、「本人以外が絵柄を無断学習するようなことがあればイラストレーターにとって感情的にも実的にも致命的ではないか」という危惧が噴出し、「無断学習」という言葉も多用されるようになったのである。

このウェブサービスmimic」はそういった悪用がされないような安全策を何重にも採ったものとなった(詳細は「mimic」の記事を参照)ため結果的には「mimicに関しては」冤罪杞憂であったとも言える。

だが、「自分の絵を無断学習されて、自分の画で絵を描くAIを勝手に作成されてしまう」という恐れられていた事態は、前述の「LoRA」などの手法の普及によって(「mimic」とは離れたところで)現実に起きてしまうのであった。

関連動画

ニコニコ動画には、同性愛者向けポルノに出演した男優の容姿・・文章をAIに無断学習させたものと思われる動画が大量にアップロードされている。当該の人物の権利を鑑みて、本記事では動画を掲載しない。

関連項目

【スポンサーリンク】

記事と一緒に動画もおすすめ!
もっと見る
  • 3
  • 0pt
記事編集 編集履歴を閲覧

ニコニ広告で宣伝された記事

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

無断学習

88 ななしのよっしん
2024/05/05(日) 02:49:59 ID: 40Pq9c+QJs
「やめて」と明言してる絵師の絵を食わせるのは倫理観がだいぶうんちに近いと思うけど現行法で合法な以上やめさせる強制がない
👍
高評価
6
👎
低評価
2
89 ななしのよっしん
2024/05/05(日) 10:34:20 ID: eMOQUWDafC
あと然と泥棒とか盗人扱いするの止めなよ…犯罪者呼びは普通名誉棄損だよ。
👍
高評価
5
👎
低評価
4
90 ななしのよっしん
2024/05/05(日) 10:36:51 ID: D5JcDisge9
絵柄割れ厨被害者面してるのウケるんだけど
盗人猛々しい
👍
高評価
4
👎
低評価
7
91 ななしのよっしん
2024/05/05(日) 10:43:38 ID: D5JcDisge9
無断学習を擁護する詭弁理矢理すぎて、こんならが社会に出て迷惑かけてるのか…と戦慄する
コンプラ違反がありふれてるのもさもありなん
👍
高評価
1
👎
低評価
12
92 ななしのよっしん
2024/05/06(月) 00:45:07 ID: PO1ZLYhCf6
>>80
解説助かる、なんか互いの論争見てると分かりやすい単に考えしに飛びつくのよく見るよな
👍
高評価
0
👎
低評価
0
93 ななしのよっしん
2024/05/06(月) 18:35:17 ID: eMOQUWDafC
ほらすぐ"盗人"扱い、だから裁判で負けるんだよな(´・ω・`)
👍
高評価
9
👎
低評価
1
94 ななしのよっしん
2024/05/07(火) 19:25:07 ID: 21SX0XHpFR
>>91
法治社会に住んでいてそのを通したいなら、その「詭弁」「迷惑」「コンプラ違反」などが非合法であることを裁判で明してくれ
(法の下では非合法と非倫理的は違う)
👍
高評価
7
👎
低評価
0
95 ななしのよっしん
2024/05/07(火) 22:25:15 ID: MCc2TMj1QB
無断学習」とやらを法律違反でなく「コンプラ違反」と呼んでいてるあたり
いてる本人も「無断学習」の違法性を確信できてなさそう
👍
高評価
5
👎
低評価
0
96 ななしのよっしん
2024/05/12(日) 08:50:20 ID: UZVKs+3eXm
ハラスメントにしても
法的な合・違法性と自分の主観的な文化による善悪が区別できがない人が未だにいるからコンプラ違反が起きてるんですよ
言ってしまえばエ◯バの人が輸血は悪っていうのを世間一般の認識だと勘違いしてるのに等しい
👍
高評価
2
👎
低評価
0
97 ななしのよっしん
2024/05/12(日) 11:25:26 ID: x4TCm+gJl6
で?君らは許可得て学習しているの?で終わる話。
👍
高評価
3
👎
低評価
0