生成型検索エンジンと法規制
- 2024年 1月 2日
- 評論・紹介・意見
- 藤澤豊
Natureの十一月六日付けの記事が興味深い。「ChatGPT detector’ catches AI-generated papers with unprecedented accuracy」と題する記事で、機会翻訳すると下記になる。
「ChatGPT検出器がAIが作成した論文をかつてない精度でキャッチ」
記事のurlは下記の通り。
チャッチ?なんのことかと読み進めれば、こんなソフトウェア(AI検出器ZeroGPT)を開発するに至った経緯まで想像できる。このソフトウェアを使えば、発表された化学論文がChatGPTによって書かれたものかどうかを正確に識別できるという。
原文の「can accurately identify」を「正確に識別」と訳しているが、下記の実験結果をみると、「accurately」をそのまま正確と訳すのは正しくない。せめてそこそこ正しくとでもするかない。まして研究者の手による実験で、こうだろうという結論を出すには、あまりに母数が少なすぎる。
記事には識別実験の結果も記載されている。機械翻訳すれば下記になる。
「研究チームは、人間が書いたテキストとして100本の序文でツールを訓練し、ChatGPT-3.5にACSジャーナルスタイルで200本の序文を書かせた。このうち100本については論文のタイトルを、残りの100本についてはアブストラクトを使用した」
「同じジャーナルから人が書いた紹介文とAIが生成した紹介文でテストしたところ、ツールはタイトルからChatGPT-3.5が書いた部分を100%の精度で識別した。抄録に基づいてChatGPTが生成した紹介文では、精度は98%とやや低かった。このツールは、チャットボットの最新バージョンであるChatGPT-4によって書かれたテキストでも同様に機能した」
「AI検出器ZeroGPTは、使用したChatGPTのバージョンと、論文のタイトルとアブストラクトのどちらから紹介文が生成されたかによるが、約35~65%の精度でAIが書いた紹介文を識別した。ChatGPTのメーカーであるOpenAIが作成したテキスト分類ツールも、AIが書いた紹介文を10~55%程度の精度で見破ることができた」
ことは学生の卒論のコピペの話ではない。生成型検索エンジンで書いた学術論文となると、誰のなんの学術論文かという話になるし、学会の権威?に発展する可能性すらある。
そんなこともあってだろうが、NatureがAIをどう規制すべきかという会議を皮肉った記事を送って来た。
「Why the UK-led global AI summit is missing the point」
機械翻訳すれば、「英国主導の世界AIサミットが的外れな理由」になる。urlは下記のとおり。
AI安全サミットに言われるまでもなく、誰もが「技術の基礎となるデータとモデルにおける規制の透明化に向けて取り組む必要がある」ことぐらい分かっている。わかってはいるが、行政が踏み込めない理由が厳然としてある。
生成型検索エンジンにかぎらず、世界中のほとんどすべてのソフトウェアは民間企業が開発したもので、どのような処理をしているのか――アルゴリズムは公開されていない。情報産業においてはアルゴリズムこそがその企業や組織の存在のよりどころとなる。知的所有権の最たるものでブラックボックス化されている。
検索エンジンはGoogleの独擅場で、中国のように国家が統制していない世界に限って言えば市場の83パーセントを占めている。二位はマイクロソフトのBingで9.1パーセントで、三位のYahooはわずか2.7パーセントしかない。
今話題の生成型検索エンジンは、検索エンジンが検索してきた結果を文章にまとめる機能が付加されて出来上がる。
好き嫌いの話ではなく、現状はほとんど人がGoogleの検索エンジンを使ってインターネットで様々なことを調べている。ちょっと想像してみたらいい。もしGoogleのような優秀な検索エンジンがなかったら、インターネットで検索した結果が優先順位付けなしでザーッと羅列されるだけで、どれをみていいのか見当がつかない。インターネット上の検索は実質不可能になる。すでに世界中で評価され、ときには批判もされながら進化してきた検索エンジンを、いまさら国家権力がどうのこうのというのは、どこかの警察国家でもあるまいし、現実問題として不可能といっても過言ではない。
コンピュータが電子計算機と呼ばれていた時代にすでに常識として「Garbage in, garbage out」言われていた。直訳すれば「ゴミを入れればゴミが出る」になる。検索エンジンにまっとうな情報を収集する能力がなければ文章を生成する機能がまともに機能しても、出力される文章はあてにならないものになる。AI騒ぎで文章生成能力を云々しているが、問題の本質は情報処理能力以前――検索エンジンの性能にある。
検索エンジンがまっとうな情報を収集するようにすればというのはいいが、ではまっとうな情報とはなんなのか?時の政治権力にとってまっとうな情報が大衆にとってまっとうとは限らないし、中国政府が望む情報とサウジアラビアが、イスラエルがパレスチナが、アルメニアがアゼルバイジャン……誰もが欲する正しいまっとな情報があり得るのかという話になる。
たしかにサミットの記事がいうように、「2008年の世界金融危機は、規制当局が関連データをよく見ないと何が起こるかを示している。規制当局は、銀行や保険会社が何千億ドルもの融資を不透明な『ブラックボックス』金融商品に投資し、最終的にはリスクの高い信用に依存していたことを、手遅れになるまで知らなかったか、発見できなかった」という教訓がある。
が、しかしソフトウェアのアルゴリズムを誰がどのような権利にもとづいて規制するのか?今にはじまったことではないが、この問題に一つの答えがあるとは思えない。ましてしかるべき機関が機械学習をすすめればというような簡単な話じゃない。
国家権力が検索エンジンの機能や性能に踏み込めば、国家が情報管制を敷き、思想統制につながる。国家権力によって管理され、利用者を監視する検索エンジンを使う社会があるべき社会とは思わない。引き合いにだすのをためらうが、Google を使えるのに、わざわざ中国版Googleと言われるBaiduを使いたいと思うのは、何か特殊な事情がある人たちだけだろう。
もう十年以上前になると思うが、Wikipediaがポケモン情報で溢れかえったことがある。ポケモンファンには貴重な情報だが、世界の大勢からは些末な情報に過ぎない。その些末な情報が氾濫して、まっとうな情報を探し出すのに苦労した人たちが立ち上がって、些末の些末を駆除した。
もうすでにポケモンと似たようなことが起きているだろう。国家統制を敷いている国が自分たちに都合のいい、敵対者にとって都合のよくない――プロパガンダをネットに上げる。そして、そのプロパガンダをロボットを使ってアクセスし続ける。アクセス数をかせいでプロパガンダを世界の「まっとうな常識」に仕立て上げる。ナチスにゲッペルスは一人しかいなかったが、今ゲッペルスもどきは数え切れないほどいる。そのもどきに嬉々として追従する輩も群れている。
SEO(search engine optimization)は数十年まえから常識になっている。転職を重ねるなかで、自社のホームページを三回作ったことがある。当然SEO対策をこうじた。SEOをググれば下記がでてくる。
「SEOとは『検索エンジン最適化』を意味する、Search Engine Optimizationの略称です。 Googleをはじめとした検索エンジンのランキングで上位表示を行うことで、検索結果からの流入や売上、リード獲得などを大きく増やすことが可能です」
今様の常識に仕立て上げる姑息な操作なんかGoogleはとっくにお見通しで、検索アルゴリズムを絶え間なく進化させている。その進化の過程で、まっとうであるはず(?)のサイトがインターネット上では表示されないという問題もすでに起きている。ちょっと前の話しだが、確かトロツキーの後継を自認するアメリカの第四インターナショナルの誰かが、自分たちのサイトの何かがGoogleの検索エンジンにひっかからないと文句を言っていた。
やっぱり民間企業に任せておくのは問題だ、国家としてガイドラインをしっかりしなければというのもわかる。ただ、いくつもある国家や民族のだれもが納得する「まっとう」というのが存在しないかぎり、国家権力あるいは国際協定にしても、大まかなガイドラインまでしか規定できない。
科学技術の進化が早い時代に国際規格のようなものでといっても間に合わない。ああだのこうだの話しているうちに科学も技術も先に進んで行ってしまう。社会はデファクト・スタンダード(Defact Standard)で動いている。
p.s.
<Googleの検索エンジンの仕組み……>
Googleの検索エンジンとでも入力すれば、下記がでてくる。ご興味のある方はどうぞ。
「Google の検索エンジンの仕組み、検索結果と掲載順位について」
https://developers.google.com/search/docs/fundamentals/how-search-works?hl=ja
2023/11/11 初稿
2023/12/30 改版
Private homepage “My commonsense” (http://mycommonsense.ninja-web.net/)にアップした拙稿に加筆、編集
〈記事出典コード〉サイトちきゅう座 http://chikyuza.net/
〔opinion13467:240102〕
「ちきゅう座」に掲載された記事を転載される場合は、「ちきゅう座」からの転載であること、および著者名を必ず明記して下さい。