CreateField Blog

オープンソースを使って個人でWebサービスを開発・運営していたブログ

約2.5億画像の類似特許・意匠図面検索を開発しました

特許検索・分析サービス Patentfieldでは、これまで文書で特許を類似検索できる機能を提供してきましたが、今回、新たに日本、アメリカ、ヨーロッパ、台湾の特許・意匠の全図面、約2.5億枚の画像に対しても類似検索が可能になりました。

この機能により、例えば自動運転技術の特許図面を検索して、類似する技術の特許を図面から簡単に見つけ出すことができます。 https://prtimes.jp/main/html/rd/p/000000043.000025380.html

類似画像検索に用いた技術

類似画像検索を作るには、画像データを特徴量に変換する必要があります。 今回利用したものは、Swin Transformer v2という技術を用いました。 https://arxiv.org/abs/2111.09883

Swin Transformerは昨今、大規模言語モデル等自然言語処理分野で大きな成果が得られているTransformer技術を画像に適用したVision Transformer系の技術です。

これまで画像解析で主流だったCNN系の技術よりも左向きや右向きの違いや部分的な一致など図面全体では違っても比較的似た概念の特徴が捉えられている傾向があります。(まだまだ完全ではありませんが。)

Swin Transformer v2を使ってImageNetと呼ばれる大規模なカラー画像で事前学習させられたオープンソースのモデルを基に、独自にグレースケール入力に特化するようネットワークを修正し、特許図面および意匠図面をGPUを使って大量に転移学習させました。

今回、画像特徴量は1024次元であり、そのままだと2.5億枚の画像を特徴量抽出すると約1TiB近くのデータ量になります。 このデータを高速に検索でき、且つ、 既存データベースの検索・集計などの操作を組み合わせてできるようにFaissという近似近傍探索用のライブラリを検索エンジンGroongaに組み込んでいます。 これにより文書や画像など、様々な特徴量をオンディスクで検索でき、柔軟性の高いデータベース操作を実現しています。

また、類似画像検索は複数画像の同時入力もサポートしています。外観図+内部構造や、意匠の6面図単位での類似画像検索も可能です。

https://support.patentfield.com/portal/ja/kb/articles/%E9%A1%9E%E4%BC%BC%E7%94%BB%E5%83%8F%E6%A4%9C%E7%B4%A2

終わりに

今回、意匠図面でなく、日本、アメリカ、ヨーロッパ、台湾の電子化されている全特許図面を類似検索できるようになりましたので、特許調査時に文書だけでなく図面からも効率的に情報を得られます。具体的には、新製品の開発において競合する特許を早期に発見したり、研究段階での新技術の特許可能性を調査する際に役立ちます。また、意匠の先行調査を特許図面にも広げて調べられたりすることを期待しています。