外部寄稿
プロンプトといわれる入力を言葉で行うと言葉や画像を自動的に出力してくれる生成AIが登場して、世の中で注されている。ここでは生成AIの現状と今後の展開について述べる。
AIは2010年代からディープ・ラーニング(深層学習)という機械学習の技術の進歩にとって3回目のブームを迎えていた。人の顔を(人よりも精度よく)見分けるとか、自動車の前方に障害物があれば運転手がブレーキをかけなくても代わりにかけてくれるとかなどの、画像認識の機能が大幅に向上した。またスマートフォンの音声対話やAIスピーカーなど人の話を聞き取ってくれる音声認識の機能も大幅に向上した。3回目のブームはもっぱら認識という機能を対象にしていたのである。
2022年前後になってAIが画像や言語を生成できるようになった。認識から生成に進歩したのである。生成AIは、大きく分けて画像を生成する画像生成AIと、言葉を生成する言語生成AIの二つがある。どちらもディープ・ラーニングの技術を用いており、プロンプトと呼ばれる言葉を入力すると、その入力に対応する画像あるいは言語を出力する。画像生成AIはMidjourneyとStable Diffusion などのシステムが代表的で、拡散モデル(diffusion model)というディープ・ラーニングの一種を使っているものが多い。言語生成AIはChatGPT(とその拡張版であるGPT-4)が代表的で、トランスフォーマー(transformer)というディープ・ラーニングの一種を使っている。
ChatGPTは2022年の11月に発表され、その生成能力の高さが注目されて瞬く間に多くのユーザーに使われるようになった。登録さえすれば誰でも無償で使える(一応13歳以上に限るというただし書きはついている)。GPTはGenerative(生成)Pre-trained(事前学習)Transformer(トランスフォーマー)の意である。プロンプトの文章を入力するとそれに対応する文章を出力してくれる。後述するようにときどき間違いはあるものの、出力文章はかなりの水準に達している。ChatGPTのベースとなったGPT-3では、インターネット上に公開されている文章のデータをコンピュータで45テラバイト分集めた(それを570ギガバイトにまとめた)とのことである。ChatGPTはOpenAIというアメリカの会社が開発しているので、集めたデータも英語圏のものが中心になっている。この570ギガバイトの文章に対してトランスフォーマーで学習を行い、約1,750億個のパラメータからなるネットワークをコンピュータの中に作った。非常に大きなネットワークであり、ChatGPTの能力の高さはこの量の大きさによってもたらされていると言ってよい。量が質に転嫁したということである。差別的なことやわいせつなことを言わないように、出力の文章を人間が評価して、人間評価が高いまともな文章しか出力しないように学習させている。
ChatGPTの文章生成の仕組みは意外なほど単純である。途中までの文章に対して次にどういう単語が来るかという、いわば「穴埋め」問題を学習したパラメータを使って統計的に解いているのである。たとえば「日本の総理大臣は」という途中までの文章に対しては、高い確率で「岸田文雄」と続ける。「日本の総理大臣は岸田文雄」の後は、ある確率で「である」と続ける。そうすると「日本の総理大臣は岸田文雄である」という文が出力されることになる。統計的に処理しているので「岸田文雄」になることが多いが、ときには「菅義偉」が出てくる場合もあり、まれには「田中角栄」が出てくることもある。生成AIがときに間違えるのは統計的に出力を決めているためである。こんな単純な仕組みでこれだけ自然な文章になるのは専門家にとっても驚きであった。なお、ChatGPTは日本語を含む複数の言語で入力できるが、内部では英語で処理している。日本語のプロンプトは英語に翻訳されて英語の回答が日本語に翻訳されて出力されている*1
。
ChatGPTは2022年に発表されたが、2023年になってChatGPTの拡張版であるGPT-4が発表された。こちらは有償であるが料金を払えば誰でも使うことができる。GPT-4はChatGPTよりさらに高い性能を示している。アメリカの司法試験および医師国家試験で合格点を取っている。日本の医師国家試験でも合格点を取っている。日本の司法試験には(まだ)受かっていないようだが、それは学習した文章が欧米中心で日本の情報が少ないためだと思われる。医師国家試験に受かるための知識はほぼ世界共通だが、司法試験は(法律制度などが国によって大きく異なるため)国の独自性が大きいのであろう。ChatGPT(GPT-4)はインターネット上によく書かれている情報には詳しいので、よくあるタイプの質問には高い正解率を示す。
ChatGPT(GPT-4)は、コンピュータのプログラムを生成することもできる。こういう入力にこういう出力をするプログラムを書いてほしい、というプロンプトを書くと、プログラムが出力される。これまで誰も書けなかったような画期的なプログラムは作れないものの、標準的なプログラムは十分に作れる。文章同様に間違いを含む可能性はあるものの、下書きのプログラムとして利用することによって、ソフトウエアの開発の作業効率を大幅に上げることができると期待されている。
人間社会は言葉で成り立っているので、AIがその言葉をかなり使いこなすようになれば、社会のほとんどに大きな影響を及ぼすと思われる。ビル・ゲイツは生成AIをインターネットの登場になぞらえたが、筆者は自動車の登場になぞらえたい。ChatGPTの登場はT型フォードの登場に匹敵する衝撃的な出来事であると思う。それまで長距離の移動には馬車を使っていた。そこにT型フォードが登場した。とても便利ということで数十年の間に一気に普及した(T型フォードの改良版や他の会社の自動車も登場した)。免許制度も、交通法規も、道路標識も何もなかったが、使っていく間にルールが整備されていった。自動車の技術も大きく進歩した。いまでも自動車はときどき死亡事故を起こす危険な道具であるが、メリットがデメリットを上回るということで世界中で使われている。ChatGPTという最初の生成AIが登場し、さまざまな問題点はあるもののうまく使えば世の中を劇的に変化させる道具と見なされている。自動車がそうであったように、ルールを整備しながら使っていくことになろう(その間に生成AIの技術も大きく進歩するはずである)。メリットがデメリットを上回ると思われるので、そうであれば自動車のように世界中で使われる。自動車の便利さを知ってしまった以上は、もはや馬車の時代に後戻りはできないのである。
ここでは生成AIの問題点を、その対策で最近の動きがあるものはそれも併せて、列挙する。
上記で挙げた問題点の一つに著作権があるが、これは生成AIにとって深刻な問題である。イラストレータの立場で考えてみよう。画像生成AIは人間の書いたイラストをデータとして大量に学習している。そのイラストレータがそれなりに有名であれば、その人が書いたイラストが学習に使われている可能性が高い。現行の日本の著作権法では、そのイラストを使うにあたってそのイラストレータに通知をして許可を取る必要はない。そのイラストレータにイラストの利用料を払う必要もない。そうして作られた画像生成AIは、ユーザーの入力するプロンプトの言葉に応じてイラストを瞬時のうちに生成する。そのイラストはかなり出来がよく、しかも無料である(画像生成AIのプログラムによっては有料の場合もあるが、人間のイラストレータに比べればはるかに安い)。それまではそのイラストレータに仕事を頼んでいたクライアントも、頼まずに画像生成AIの出力したイラストを使うようになる。イラストレータとしては、自分の作品を断りなく報酬もなく学習した画像生成AIに仕事を奪われた格好になり、踏んだり蹴ったりである。
2018年に改正された日本の著作権法ではこうしたことがまかり通ってしまうのである。AIの開発を容易に行うために自由度を高めたという側面はあるものの、データ提供者(この場合はイラストレータ)への扱いが社会通念上不適切である。著作権法が改正された2018年の時点ではまだ生成AIは登場しておらず、このときはディープ・ラーニングを用いたAIシステムの開発を容易にするということを目的として法律が改正されたのである。アメリカではデータ提供者と推察される人あるいは組織が生成AIの開発会社を訴えることが多発している(「推察される」としたのは、生成AIがどのデータを学習したかを公開していない場合が多いためである)。AIシステムの開発の阻害要因にならないように十分に配慮した上で、データ提供者に適切な対応をすべく、日本やアメリカなどで著作権の扱いが検討されている。ヨーロッパ(EU)は伝統的に個人情報を重視する立場から、データ提供者に許可を取ることなく生成AIの学習データとすることを禁じる方向で進んでいる。
自分の作成したデータをAIの学習に用いることを拒否するオプトアウトの権利が認められるようになっていくと思われる。データにAI利用不可のマーク(著作権のマークのようなもの)をコンピュータが読めるようにつけておけば、コンピュータがインターネット上で学習データを探すときに、マークが付いたデータは学習から除外することになる。
生成AIのデータ利用は、著作権の問題以上に倫理の問題である。現状ではデータ提供者にいわば「ただ乗り」する形で生成AIが作られて使われている。生成AIが世の中に大きく貢献するとしても、「ただ乗り」は倫理上許されるべきではない。膨大なデータ提供者一人一人に利用の許可を取って(場合に応じて)報酬を払うというのは非現実的であるが、何らかの形でデータ提供者に報いる仕組みを作る必要があろう。 生成AIへの対応は国によって分かれている。アメリカは自由に進めて問題が生じたら裁判で決着するというスタンスである。前述したように実際にデータ提供者が生成AIの開発会社を訴える裁判がたくさん進んでいる。その裁判の結果次第で生成AIの開発方法に影響が出ると思われる。EUは生成AIの開発に厳しい縛りをかけようとしており、個人情報の保護の観点からは望ましいものの、AIシステムの開発が阻害されることが心配されている。日本は開発と保護のバランスが比較的取れていると言えるので、今後日本が生成AIの展開の場として機能する可能性がある。実際にChatGPTを開発したOpenAIは日本に拠点を作って進出している。
ChatGPT(とGPT-4)は特に対象領域を定めずに全般的な知識を収集した。そのために(いわゆる文系と理系の難しい職業の典型である)司法試験と医師国家試験の両方に合格する能力を有している。一方で間違いを犯したり絵空事を書いたり(ハルシネーション=質問に対して、いかにも事実のような虚偽の回答がなされる現象=と呼ばれる)することもある。最近は領域に特化した生成AIを開発する試みが盛んに進められている。領域のしっかりした専門知識から学習すれば、間違いを犯すことが減る。専門知識は適切な著作権の処理がしやすい。領域を限ればデータが少なくて済むので開発コストが下がる(動かすコストも下がる)。医療、法律、金融など、さまざまな領域に特化した言語生成AIが開発され、われわれユーザーは目的に応じてそれらの言語生成AIを使い分けることになると思われる。
最近になってOpenAIがプロンプトから動画を自動生成するSoraというシステムを発表した。かなり高いレベルの動画を生成できている。2時間の映画のような長い動画はまだ無理としても、短い映画やアニメ、コマーシャルなどは十分に作れる可能性がある。従来の言語生成AIや画像生成AIの能力が向上していくと同時に、生成AIの対象が広がっていくと思われる。 前述したように、これだけ便利な道具が出現した以上は、馬車の時代に戻ることはできない。馬車から自動車に代わって世の中が大きく発展したように、生成AIの出現によって世の中が大きく発展すると期待される。著作権の問題を含めて生成AIを利用するためのルールを整備しつつ、自動車のように危険に注意しつつ使いこなしていくことが求められるであろう。
松原 仁(まつばら ひとし)
京都橘大学 教授
1959年生まれ。1986年東京大学大
学院工学系研究科情報工学専攻博士課程修了。工学博士。
同年通商産業省工業技術院電子技術総合研究所入所。2000年、公立はこだて未来大学教授に就任。2020年、東京
大学次世代知能科学研究センター教授に就任。2024年、京都橘大学工学部情報工学科教授に就任。
元人工知能学会会長、元観光情報学会会長。2022年より情報処理学会副会長。著書に「鉄腕アトムは実現できるか」、「先を読む頭脳」、「AIに心は宿るのか」など。
執筆者紹介
松原 仁
京都橘大学
教授
機関誌「日立総研」、経済予測などの定期刊行物をはじめ、研究活動に基づくレポート、インタビュー、コラムなどの最新情報をお届けします。
お問い合わせフォームでは、ご質問・ご相談など24時間受け付けております。