中国のオープンソースOCRモデル「PaddleOCR」、GitHubで関心集める

2026年04月08日

　中国のオープンソースOCR（光学文字認識）モデル「PaddleOCR」が、開発者向けプラットフォームGitHubで関心を集めている。百度の大規模言語モデル（LLM）「文心」をもとにした派生モデルで、GitHub上の人気指標の一つである「スター」数が7万3300件を超え、OCR分野では最も多くスターを集めるプロジェクトになったという。科技日報が伝えた。

　OCRは文字のデジタル化における重要技術であり、画像やPDF内の文字を編集可能なテキストへと変換する。長年にわたり、グーグルのTesseract OCRはこの分野のベンチマークとされてきたが、今回、PaddleOCRがスター数でこれを上回った。

　PaddleOCRは「文心」をベースにトレーニングされており、異形枠の位置特定技術を導入している。紙文書のスキャン時に発生しがちな傾きや折れ曲がり、歪みといった問題への対応を図る。110以上の言語に対応し、テキストと画像が混在するレイアウトや表、数式などの解析にも対応する。構造化データとして直接出力できるため、LLM向けのデータ処理にも活用できるという。

　また、LLM技術の進展はOCRの高度化も後押ししている。PaddleOCRは、単なる文字認識にとどまらず、文書内容の理解も重視する方向にある。現在は、PaddleOCR OCEANエコシステム連盟が設立され、Hugging Faceなどのパートナーが参加しており、オープンソースOCR技術の実用化拡大を目指すとしている。

2026年03月02日　オープンソースLLM最新ランキング、Qwen 3.5が首位

中国科学技術ニューストップへ

中国のオープンソースOCRモデル「PaddleOCR」、GitHubで関心集める

2026年04月08日

関連記事