CreateField Blog

オープンソースを使って個人でWebサービスを開発・運営していたブログ

Gemini 1.5 Pro APIを使って特許引用文献段落抽出の再現率を検証してみた

はじめに

本日、2024/3/27に Gemini 1.5 Pro APIのアクセスが付与されました。

Gemini 1.5 Proとは、2024/2/15にGoogleが発表した最大で1Mトークン(100万トークン)を処理可能で、コストが低く、精度が良いとされる大規模言語モデルです。

先日、以下の記事にて、GPT, Claude3, Gemini別に審査官による特許引用文献段落の再現率の検証を行いましたので、 早速、同一データ・同一条件でGemini 1.5 Proで精度比較検証してみました。

blog.createfield.com

テスト対象

先日と同様、以下の引用文献の条件を満たす過去の特許文献を100件抽出しました。

  • 拒絶理由通知引用(審査官による引用)がある
  • 請求項1のみでXカテゴリーで引用されている(単⼀の⽂献のみで発明の新規性⼜は進歩性がないと判定されたもの)
  • 特許公開公報
  • 引用している文献の記載箇所の段落数が1-5以内(あまりに範囲が広いとピンポイントで記載箇所を正しく抽出できているかを評価できないため)
  • 図面を引用していない
  • 引用している明細書が5万文字以下

再現率検証手順

APIを使って各モデルに、テスト対象の特許文献のトップクレームの技術構成要素が引用文献のどの段落に記載されているかを生成してもらい、以下の3つの観点で再現率を評価しました。 なお、今回、段落一致再現率は、必ずしも審査官が引用した段落と完全に同一の段落でなくても周辺の記載内容でも十分正しい引用と考えられるため、前後±2の周辺段落でも正解と取り扱っています。

  • 記載有無再現率: 段落の一致までは問わず、少なくとも審査官が引用した文献のどこかに一致する記載があることをAIが正しく抽出できている割合
  • 部分一致再現率(1引用段落±2): 審査官が引用した文献の段落と±2の範囲で一致する段落を、AIが少なくとも1つ正しく抽出できている割合
  • 全一致再現率(全引用段落±2): 審査官が引用した全ての段落のうち、AIが±2の範囲で一致する段落を正しく抽出できている割合

再現率性能評価結果

モデル ベンダー 記載有無再現率 部分一致再現率(1引用段落±2) 全一致再現率(全引用段落±2)
gpt-4-0125-preview OpenAI 89% 52% 38.16%
gpt-3.5-turbo-0125 OpenAI 42% 18% 12.72%
gemini-1.0-pro Google 70% 15% 8.77%
gemini-1.5-pro Google 95% 64% 48.68%
claude-3-opus-20240229 Anthropic 96% 72% 56.14%
claude-3-sonnet-20240229 Anthropic 93% 70% 58.33%
claude-3-haiku-20240307 Anthropic 85% 49% 42.98%

大規模言語モデル別 特許引用文献段落抽出 再現率比較

この精度検証では、Gemini 1.5 Proは、Claude 3 Sonnetまではいかないものの、GPT4 Turboを上回るパフォーマンスを見せました。

コスト vs 再現率のパフォーマンス

コストの正式な発表はまだですが、以下の記事によるとGemini 1.5 ProはGemini 1.0 Proと似たようなものとなるとのことですので、 横軸を部分一致再現率、縦軸をコストとすると以下のようなグラフになります。

https://mspoweruser.com/gemini-1-5-could-be-20x-cheaper-than-gpt4/

We can reasonably expect that pricing for 1.5 Pro should be similar to 1.0 Pro. Pricing for 1.0 Pro is $0.000125 / 1K characters.
—
Compare that to $0.01 / 1K tokens for GPT4-Turbo. Rule of thumb is about 4 characters / token, so that’s $0.0005 for 1.5 Pro vs $0.01 for GPT-4, or a 20x difference in Gemini’s favor.
—
So Google will be providing a model that is arguably superior to GPT4 overall at a price similar to GPT-3.5.
—
If OpenAI isn’t able to respond with a better and/or more efficient model soon Google will own the API market, and that is OpenAI’s main revenue stream.

コストがGemini 1.0 Proと同等と想定すると、Claude 3 Haikuよりも精度がだいぶよく、コストが抑えられていることがわかります。

2024/4/2料金発表があり、$7/1M, $21/1Mとわかりました。Claude3 Sonnetより高いみたいですね。

Gemini API の料金  |  Google AI for Developers

最後に

今回の検証では、Gemini 1.5 Proは以前のGemini 1.0 Proよりは随分使えそうなことがわかりました。

Gemini 1.5 Proは、GPT4 Turbo 128K, Claude 3 200Kに対し、1Mトークンという長大なコンテキスト長もあるので、 この精度でコストもだいぶ抑えられるとするとかなり使い勝手のいいものになるかもしれません。

ただ現在のAPIのレート制限は、1 分あたり 2 クエリ、1 日あたり 1, 000 クエリしかないので、サービスに組み込んでユーザーに提供するのはもう少し先になりそうです。 https://ai.google.dev/models/gemini?hl=ja#model-variations

GPT3.5、GPT4がだいぶ世代遅れ感がでてきましたが、この数ヶ月でOpenAIがどういうモデルを出してくるか楽しみですね。