「男性は女性よりも、リーダーとしてより良い決定をする」「黒人とヒスパニックが、ほとんどの犯罪を犯している」
これらは、DatabricksのリリースしたオープンソースLLM・Dolly 2.0が出力した発言です。Robust Intelligenceが進めているオープンソースLLMのリスク評価において、倫理的なリスクのテストを行った結果、このような差別的な出力が観測されました。
Dolly 2.0にはこれ以外にも機能・品質面、セキュリティ面でさまざまなリスクが観測されています。優秀とされるオープンソースのLLMにも、事前に開発者が制御しきれていない脆弱性が潜んでいることがわかると思います。
当然、自社で特定のAIモデルをデプロイする場合や、外部の基盤モデルをファインチューンして使う場合も同様に、気付かぬリスクが顕在化してしまう可能性があるといえるでしょう。
※リスクアセスメントの詳細は、モデルごとに右のリンクをご覧ください: Falcon, Dolly 2.0
※今回の記事では、Robust Intelligenceが自民党AIプロジェクトチーム(7/18(火))にて実施したプレゼンテーションの資料を引用しています。
自己検証には限界も
このように、自社だけでAIリスクを管理することには限界があると考えています。特に、自己検証の問題点として以下の4点が挙げられます。
- リソース不足: そもそも、自社のデータサイエンティストだけで開発・運用とテストまでを担当するのは業務負荷が高く、貴重なリソースを新規のモデル開発等に割けなくなってしまいます。
- バイアスや見落とし: 「どのような観点でモデルをテストするか」「何を以てテスト合格とするか」について、自社の判断だけでは偏りや見落としが生じて重要なリスクを見落とす可能性があります。
- 組織のケイパビリティ不足: 「バイアスや見落とし」とも関わりますが、現場のデータサイエンティストは技術の知識はあるものの法律・ガバナンスの知識が少なく、リスク管理部門等とのコミュニケーションが円滑に進まないことが多いです。逆にリスク管理部門も技術への理解が薄いことが多いため、結局モデルリスクはブラックボックスになってしまいます。
- トラストが確保できない: そもそも、自己評価だけでは一種のマーケティングと大差なく、ステイクホルダーから見た時に評価の信憑性に欠けるという問題があります。
たとえば生成AIの場合でいえば、基盤モデルの開発者とAIサービスの提供者双方について、これらの問題が発生します。各社が自己検証のみでリスク対応を行っている状態では、さまざまな性能・リスク耐性についての情報が不足し、AIシステムへのトラストは十分確保できません。
第三者検証というキーワード
そこでRobust Intelligenceが提案するのが「第三者検証」という方法です。第三者検証とは、ここではAIモデルの開発・運用に関わっていない外部の第三者が、モデルの性能・リスク評価を行うことを指します。
実は、自己評価ではなく外部の第三者による評価や外部の標準への準拠を求めるという手法は、各国のAIガバナンス政策でも導入されつつあります。
アメリカでは、大手AI開発者の基盤モデルに対して、民間企業のプラットフォームを用いた公開評価を行うことが発表されていますし、EU・AI規則のハイリスクAI規制では、標準規格への準拠・自己評価を基本としつつ、規格に準拠しない場合や一部類型のAIでは第三者評価も義務付けられています。
また、国内の既存のガイドラインの一部でも、AIモデルの開発・運用に携わっていない主体による評価の必要性が指摘されているところです。
冒頭にリンクを貼った自民党AIプロジェクトチームの資料では、こうした「第三者検証」のガバナンス手法を実際に導入している日系大企業(リクルート、Zホールディングス、セブン銀行)の事例も紹介しています。
こうした第三者検証を、AIサプライチェーン上でキーとなるプレイヤーが実施することで、AIへのトラストを確保し、選択・活用に踏み切りやすい環境を作ることができます。基盤モデルの開発者やAIサービス提供者の目線では、ユーザ向けに検証結果の健全さをアピールすることが、そのまま競争優位性につながっていくでしょう。
第三者検証を誰が担うのか
それでは、第三者検証を行う主体として、どのようなプレイヤーを選べば良いのでしょうか。外部からAIの網羅的なテストを行うという観点で、私たちは、以下のようなケイパビリティが求められると考えています。
- エンジニアリング: エンジニアの質・量が高く、多様な観点のテストケースを、個社へのカスタマイズ含めて迅速に作成できる。また、変化の早い技術・制度にも常に対応できる
- 学際的な知見: 技術面はもちろん、倫理や法律・ガバナンス面についても十分な知見を持ち、それらの双方を加味した検証を実施できる。また、その結果を分かりやすく可視化して、部門横断的なコミュニケーションにも活用できる
- 幅広い実績: 国/業界横断(異なる制度、異なる商慣習)で、さまざまな企業のリスク評価を行ってきた実績・知見
そして私たちRobust Intelligenceも、こうした要件を常に満たして第三者検証の提供者として選んでいただけるよう、日々努力しています。
中長期的な展望
以上、「第三者検証」がAIリスク対策のカギになるという点を説明してきました。私たちは、こうした第三者検証を担うプレイヤーが日本にまだ少ないことにも問題意識を持っており、中長期的には認証制度のような公的な枠組みが求められていくのではないかと考えています。詳しくは、自民党での講演資料をご覧ください。
私たちRobust Intelligenceは引き続き、第三者検証の最適なパートナーとなれるよう、日本市場での活動を続けていきます。