中国のオープンソースOCR(光学文字認識)モデル「PaddleOCR」が、開発者向けプラットフォームGitHubで関心を集めている。百度の大規模言語モデル(LLM)「文心」をもとにした派生モデルで、GitHub上の人気指標の一つである「スター」数が7万3300件を超え、OCR分野では最も多くスターを集めるプロジェクトになったという。科技日報が伝えた。
OCRは文字のデジタル化における重要技術であり、画像やPDF内の文字を編集可能なテキストへと変換する。長年にわたり、グーグルのTesseract OCRはこの分野のベンチマークとされてきたが、今回、PaddleOCRがスター数でこれを上回った。
PaddleOCRは「文心」をベースにトレーニングされており、異形枠の位置特定技術を導入している。紙文書のスキャン時に発生しがちな傾きや折れ曲がり、歪みといった問題への対応を図る。110以上の言語に対応し、テキストと画像が混在するレイアウトや表、数式などの解析にも対応する。構造化データとして直接出力できるため、LLM向けのデータ処理にも活用できるという。
また、LLM技術の進展はOCRの高度化も後押ししている。PaddleOCRは、単なる文字認識にとどまらず、文書内容の理解も重視する方向にある。現在は、PaddleOCR OCEANエコシステム連盟が設立され、Hugging Faceなどのパートナーが参加しており、オープンソースOCR技術の実用化拡大を目指すとしている。