オーストラリア連邦科学産業研究機構(CSIRO)とクイーンズランド大学(UQ)の科学者らが、ChatGPTに健康に関する質問をする際、より多くの情報(エビデンス)を提示するほど正答率が低下することを明らかにした。4月4日付発表。この研究は自然言語処理分野の国際会議「Empirical Methods in Natural Language Processing(EMNLP)」で発表された。
CSIROの研究者でクイーンズランド大学の准教授であるベヴァン・コープマン(Bevan Koopman)博士
(出典:CSIRO)
ChatGPTなどの大規模言語モデル(LLM)の普及とともに、オンラインツールで健康情報を検索することも一般的になっており、それに伴うリスクを明らかにする必要が生じている。
研究者らは、(医療専門家でない)一般的な人物がChatGPTに「治療Xは状態Yに良い効果をもたらすか」を尋ねるという仮説的シナリオに基づき、「亜鉛は風邪の治療に役立ちますか?」「酢を飲むと刺さった魚の骨が溶けますか?」といった質問100個をChatGPTに提示し、回答を既存の医学知識に基づく正解と比較した。
この研究では、質問のみ、またはエビデンスを含む誘導的な質問の2通りの質問形式に対する結果を比較した。ChatGPTの正答率は、質問のみの形式に対しては80%であったのに対し、誘導的な質問に対しては63%であった。さらに、「わからない(unsure)」という回答を許可した場合、正答率は28%まで低下した。
この研究結果について、CSIROの研究者でUQの准教授であるベヴァン・コープマン(Bevan Koopman)博士は、「提示したエビデンスが正確であるかどうかにかかわらずこのような結果が生じたことから、エビデンスによりノイズが過多となり、正答率が低下したのかもしれない」と語った。
また、共著者であるUQのグイド・ズッコン(Guido Zuccon)教授は、「LLMと検索コンポーネントとの相互作用はまだよく理解されておらず制御困難であり、このことが不正確な健康情報の生成につながることを実証した」と述べている。
サイエンスポータルアジアパシフィック編集部