言語モデルとはテキストを予測するタスクであり、現在、人工知能(AI)で最も注目されているトレンドの1つである。しかし、それは人種差別、性差別、誤情報その他を引用するという深刻な欠陥を持つ。このため、言語モデルの開発には十分な監視が重要である。
AIの世界について考えてみたとき、思考力を持ち推論できる真の機械からは遠いものを想像するかもしれない。しかし実際には、AI はすでに我々の身の回りに存在し、考えられるほぼすべての業界や分野で応用されている。また、最新の AI システムであっても、人間が示す高レベルの知性にはまだまだ到達できないが、近年はすさまじく進歩していると言っても言い過ぎではない。
私は、この冒頭の段落を一文字も書いていない。私はオンラインで、AIを用いる言語予測モデルを使用するウェブサイトを検索した。そのようなウェブサイトの1 つで「大規模言語モデルとその未来」と入力したら、何と、わずか数秒で冒頭の段落が表示された。
大規模言語モデル (LLM) とは、デジタル化された本、ウィキペディア、新聞、記事などのソースから無料で入手できる大量のテキストを利用するAI ツールである。このモデルは、テキストを読み、要約し、翻訳し、文中の次の単語を予測して、人間が話し、書く文と同様の文を生成することができる。Google、Meta、Microsoft、Alibaba、Baidu などのハイテク大企業が競って独自の言語モデルを開発しているが、それが消費者にどのような影響を与えるかを予測することは難しい。アジアや世界の他の地域の政府、科学機関、企業がLLM の使用に関する方針と倫理規程を設定し、実施しようとする試みは、仮にあったとしても、ほとんど行われていない。
研究者たちによると、言語モデルの起源は1950 年代にさかのぼる。その頃、英国の数学者であり哲学者でもあるアラン・チューリングが、質問に応答しているものが人かコンピューターかを判別できない場合、機械はインテリジェントであると見なされるべきであると発表した。後年、技術の進歩により、自然言語処理 (NLP) が生まれ、これにより、コンピューターは、テキスト内のパターンを識別することによって、言語を構成するものを学習できるようになった。
LLM は、NLPよりもはるかに高度で洗練された段階である。たとえば、GPT-3と呼ばれる一般的な AI 言語モデル(この記事の冒頭で使用したものと同じアプリ)は、最大570GBのテキスト情報を使い、数千億の単語間の統計的相関関係を作成するだけでなく、言語予測に基づき文、段落、さらには記事まで生成することができる。実際のところ、この言語モデルを使用して科学研究論文を書き、査読ジャーナルに投稿した研究者もいる。
シンガポール科学技術研究庁 (A*STAR) のAI 科学者であるナンシー・チェン (Nancy Chen) 氏は、Asian Scientist Magazine に対し、そのような言語モデルの基礎は単純であると語った。「モデルは基本的に、最初に取得したいくつかの単語を考えて、その後の単語を予測します」と彼女は言った。これは、人間が会話の中で足りない言葉を推測するのと同じような仕組みである。
政府にとっても民間企業にとっても、LLM は非常に役に立つ。たとえば、サービス業の会社は、より優れたチャットボットを開発して、顧客からのユニークな質問に答えることができる。また、政府はLLMを使用して、政策問題に関する世論やコメントを要約し、修正を行うことができる。LLM は、一般向けの技術研究論文や報告書を分かりやすくするためにも使用できる。しかしながら、LLM の開発はリソースを大量に消費するため、今のところ開発競争に参加しているのは、ほとんどが大手ハイテク企業である。
米国ミシガン大学フォード公共政策大学院の政策研究者であるショビタ・パーササラシー(Shobita Parthasarathy) 氏は、Asian Scientist Magazineに対し「とても魅力的な大市場があると考えているため、大企業は皆LLMを開発しています」と語った。
パーササラシー氏などLLMモデルとその利用可能性を研究している研究者たちは、LLM は特に過去のデータセットを使うため、モデルを綿密に精査する必要があると述べる。パーササラシー氏は「歴史には、人種差別、性差別、植民地主義、そしてさまざまな形の不正が多く存在します。テクノロジーが実際にはこれらの問題を強調し、さらには悪化させる可能性さえあります」と話す。
パーササラシー氏と彼女のチームは最近、LLM が社会環境に与える大きな影響に関する134ページのレポートを発表した。LLM が普及すると巨大なデータセンターが必要になるが、それは取り残されたコミュニティを追い払う可能性がある。レポートには、データセンターの近くに住む人々は、バックアップのディーゼル発電機からもたらされる資源不足、公共料金の上昇、汚染を経験するだろう、と書かれてある。データセンターの運用には、多くの人材と、水、電気、希土類金属などの天然資源が必要である。このため、レポートは、特に低所得コミュニティの場合、最終的には環境の不公平が悪化されることとなるだろう、という内容で締めくくっている。
言語モデルは成長段階であるため、認められるべきこと、制限されるべきことに関して明確に定めた基準も十分に定義された規制もない。
「今のところ、これらはすべて民間主導で、民間でテストされており、企業は自分たちが考える良い大規模言語モデルを決めることができます」とパータサラシー氏は言う。
さらに、他のすべてのテクノロジーと同様に、LLM は悪用される可能性がある。しかし、「私たちは企業に開発を止めさせるべきではありません」と、香港科学技術大学のAI研究責任者である パスケール・フング (Pascale Fung) 氏は Asian Scientist Magazine に語る。「最も重要なことは、モデルのバイアスや有害性を評価し、必要な修正を行うことによって、責任ある AI の原則をテクノロジーに組み込むことです」
LLMの研究者は、データプライバシーとセキュリティに関する包括的な法律が必要であると考えている。パータサラシー氏は、企業が入力データセットとアルゴリズムについて完全な透明性を保ち、人々が問題や潜在的な問題を入力できる苦情処理システムがあれば、包括的な法律を制定できると考えている。
「大規模言語モデルは社会に大きな影響を与える可能性があります。私たちが本当に必要としているのは、多くの国民が監視し、規制することです」
(2023年01月16日公開)