CreateField Blog

オープンソースを使って個人でWebサービスを開発・運営していたブログ

Cohere Command R+とGPT4, Claude3, Gemini1.5の引用段落抽出精度を比較してみた

はじめに

先日、2024/4/4 CohereからCommand R+という新たなLLM(大規模言語モデル)が発表されました。

Cohereは、Transformerモデルを提唱した論文共同執筆者の人が立ち上げたカナダのAIベンチャー企業のようです。 https://ascii.jp/elem/000/004/192/4192907/

Command R+とは、最大で128Kトークンが処理が可能で、コストはGPT4Turboの3~5倍ほど安いモデルです(Claude3 Sonnetと同等)。

先日、以下の記事にてGPT, Claude3, Gemini別に審査官による特許引用文献段落の再現率の検証を行いました。

ChatGPT, Claude3, Gemini別に審査官による特許引用文献段落抽出の再現率を検証してみた - CreateField Blog

Gemini 1.5 Pro APIを使って特許引用文献段落抽出の再現率を検証してみた - CreateField Blog

今回は、同一データでCohereのCommand R, Command R+の再現率と適合率を検証してみました。 なお、CohereのCommand R, Command R+にはRAG特化の引用元抽出の機能がありますが、今回はそちらを使わず、プロンプトベースで検証しています。

テスト対象

先日と同様、以下の引用文献の条件を満たす過去の特許文献を100件抽出しました。

  • 拒絶理由通知引用(審査官による引用)がある
  • 請求項1のみでXカテゴリーで引用されている(単⼀の⽂献のみで発明の新規性⼜は進歩性がないと判定されたもの)
  • 特許公開公報
  • 引用している文献の記載箇所の段落数が1-5以内(あまりに範囲が広いとピンポイントで記載箇所を正しく抽出できているかを評価できないため)
  • 図面を引用していない
  • 引用している明細書が5万文字以下

再現率・適合率検証手順

APIを使って各モデルに、テスト対象の特許文献のトップクレームの技術構成要素が引用文献のどの段落に記載されているかを生成してもらい、以下の3つの観点で評価しました。

  • 全段落±2再現率: 審査官が引用した全ての段落のうち、AIが±2の範囲で一致する段落を正しく抽出できている割合
  • 全段落±2適合率: AIが生成した引用段落のうち、AIが±2の範囲で一致する段落を正しく抽出できている割合
  • 全段落±2F値: 再現率と適合率の調和平均

段落一致は、必ずしも審査官が引用した段落と完全に同一の段落でなくても周辺の記載内容でも十分正しい引用と考えられるため、前後±2の周辺段落でも正解と取り扱っています。

また、「下手な鉄砲も数撃てば当たる」可能性もあるので再現率だけでなく、適合率・F値も算出しています。 「再現率」はお手つき関係なしにどれだけ漏れなく正解できたかを判定する指標で、「適合率」はどれだけ誤った生成なしに正解できたかどうか(ノイズが少ないか)を判定する指標です。

審査官の引用段落は文書中の1つのサンプルを引用しているだけにすぎないことが多く、 審査官が挙げていない他の複数の段落を当てても正解と取り扱っても実質的に問題ないことがあります。 今回は、機械的に実際の審査官の段落との一致率だけをみているので、適合率は体感精度より低めに出ています。

性能評価結果

モデル 全段落±2再現率 全段落±2適合率 全段落±2F値
gpt-4-0125-preview 0.346 (79/228) 0.202 (79/391) 0.255
claude-3-haiku-20240307 0.408 (93/228) 0.15 (93/620) 0.219
claude-3-sonnet-20240229 0.496 (113/228) 0.134 (113/844) 0.211
claude-3-opus-20240229 0.456 (104/228) 0.216 (104/481) 0.293
gemini-1.5-pro-latest 0.465 (106/228) 0.143 (106/740) 0.219
command-r 0.754 (172/228) 0.103 (172/1671) 0.181
command-r-plus 0.789 (181/228) 0.033 (180/5507) 0.063

この精度検証では、実際の審査官の引用段落は228個に対し、Command R+は5507個も段落を挙げてしまっており、適合率が極めて小さい結果となりました。

実際の出力サンプル

実際の出力での定性評価としては、今回の日本語でのプロンプトでは、Command R, Command R+は審査官が引用していない異なる技術の文献のケースでうまく比較できていないようでした。

審査官引用文献ケース

「含まれている」が正解。

  • gpt-4-0125-preview
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 明細書中にパッシベーション領域に関する記載が見当たらないため
少なくとも一つの伝導性ボンドパッド領域 含まれている 0015, 0016 「ゲートパッド電極9が設けられ、ボンディングワイヤ等によりリードフレームのゲート端子Gに接続して電極の取り出しを行う」などの記載があるため
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれている 0015, 0016 「制御用IC4は、その基板の電位がGNDになるように設計され、MOSFET1のソース電極2上に導電性接着剤6により直接固着されている」などの記載があるため
第一のダイを具備する半導体デバイス 含まれている 0014, 0015, 0016 「MOSFET1は、出力用トランジスタであり、その中に多数のNチャネル型MOSトランジスタのセルを設けた実動作領域を有する」などの記載があるため

この表に基づいて、対象特許の内容について、指示された判定対象の記載内容が含まれているかを判定しました。パッシベーション領域に関する記載は含まれていないものの、他の構成要素については明細書中に記載が見られます。

  • claude-3-sonnet-20240229
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている 段落[0017], [0019] 明細書の段落[0017]と[0019]に、表面保護膜となる絶縁層3がポリイミドまたは窒化膜などで形成されていることが記載されており、これがパッシベーション領域に相当する。
少なくとも一つの伝導性ボンドパッド領域 含まれている 段落[0015], [0016] 段落[0015]にゲートパッド電極9、段落[0016]に制御用IC4の制御端子がボンディングワイヤ7で接続されることが記載されており、これらがボンドパッド領域に相当する。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれている 段落[0015], [0016] 段落[0015]にMOSFET 1のソース電極2が記載されており、段落[0016]に制御用IC 4がソース電極2上に導電性接着剤6で固着されることが記載されている。したがってソース電極2が第二のダイ(制御用IC 4)を受容する広い伝導性領域に相当する。
第一のダイ 含まれている 段落[0015] 段落[0015]にMOSFET 1が記載されており、これが第一のダイに相当する。
  • claude-3-opus-20240229
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている 【0014】【0017】 「絶縁層3は、MOSFET1のソース電極2上に設けられたポリイミドまたは窒化膜などの表面保護膜であり」と記載されており、表面保護膜がパッシベーション領域に相当すると判断できるため。
少なくとも一つの伝導性ボンドパッド領域 含まれている 【0015】 「実動作領域の外部には、MOSトランジスタのセルのゲート電極と接続されるゲートパッド電極9が設けられ、ボンディングワイヤ等によりリードフレームのゲート端子Gに接続して電極の取り出しを行う。」と記載されており、ゲートパッド電極が伝導性ボンドパッド領域に相当すると判断できるため。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれている 【0015】【0016】 「ソース電極2には制御用IC4の裏面が導電性接着剤6により固着される。」「制御用IC4は、その基板の電位がGNDになるように設計され、MOSFET1のソース電極2上に導電性接着剤6により直接固着されている。」と記載されており、ソース電極が第二のダイ(制御用IC)を受容するサイズの広い伝導性領域に相当すると判断できるため。
表面を有する第一のダイ 含まれている 【0014】【0015】 「MOSFET1は、出力用トランジスタであり」「MOSFET1のドレイン電極8はリードフレームのドレイン端子Dとなるヘッダーに固着し、パッケージ外部へ導出する。」と記載されており、MOSFET1が第一のダイに相当し、その表面にソース電極等の領域を有していると判断できるため。
  • gemini-1.5-pro-latest
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている 段落番号0015, 0017, 0019, 0020, 0025 表面保護膜としてポリイミドや窒化膜が例示されており、これがパッシベーション領域に該当すると考えられるため。
少なくとも一つの伝導性ボンドパッド領域 含まれている 段落番号0015 ゲートパッド電極が明示されており、これが伝導性ボンドパッド領域に該当すると考えられるため。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれている 段落番号0015 ソース電極が明示されており、これが第二のダイ(制御IC)を受容するサイズの広い伝導性領域に該当すると考えられるため。
第一のダイ 含まれている 段落番号0015 MOSFETが明示されており、これが第一のダイに該当すると考えられるため。
半導体デバイス 含まれている 段落番号0001 電源回路装置が明示されており、これが半導体デバイスに該当すると考えられるため。
  • command-r
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 明細書に「パッシベーション領域」という記載は含まれていない。
伝導性ボンドパッド領域 含まれている [0015]-[0016], [0018]-[0019] 「ゲートパッド電極」が「伝導性ボンドパッド領域」に対応。
「ゲートパッド電極9が設けられ、ボンディングワイヤ等によりリードフレームのゲート端子Gに接続して電極の取り出しを行う」とあり、ゲートパッド電極が伝導性ボンドパッドとして機能していると判定。
第一のダイ 含まれている [0014]-[0020] 「MOSFET1」が「第一のダイ」に対応。半導体素子であり、ダイとして機能していると判定。
表面 含まれている [0014]-[0020] 「MOSFET1の表面」という記載があることから、第一のダイに表面が存在するものと判定。
パッシベーション領域を含む表面 含まれていない 出現位置なし 明細書に「パッシベーション領域を含む表面」という記載は含まれていない。
少なくとも一つの伝導性領域 含まれている [0015]-[0016], [0018]-[0019] 「ソース電極2」が「少なくとも一つの伝導性領域」に対応。
「ソース電極2上に制御用IC4の裏面が導電性接着剤により固着される」とあり、ソース電極が伝導性領域として機能していると判定。
第二のダイを受容するサイズの広い伝導性領域 含まれている [0014]-[0020] 「MOSFET1のソース電極2上に制御用IC4の裏面が導電性接着剤により固着される」とあり、ソース電極が広い伝導性領域として機能し、第二のダイである制御用IC4を受容すると判定。

全体として、明細書には発明の実施形態として、複数のダイを積層した電源回路装置が記載されており、その構成要素が要求事項に記載の内容と対応していると判定した。

  • command-r-plus
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている [0015], [0017] 明細書の段落[0015]には、「MOSFET1のソース電極2上に設けられたポリイミドまたは窒化膜などの表面保護膜」と記載されており、段落[0017]には、「絶縁層3は、MOSFET1のソース電極2上に設けられたポリイミドまたは窒化膜などの表面保護膜」と記載されている。これらの「表面保護膜」は、一般的な半導体デバイスにおいてパッシベーション領域として知られるものに相当するため。
少なくとも一つの伝導性ボンドパッド領域 含まれていない 出現位置なし 明細書には、伝導性ボンドパッド領域に相当する構成要素は明記されていない。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれている [0015], [0016], [0017] 明細書の段落[0015]には、「MOSFET1のソース電極2上に制御用IC4の裏面が導電性接着剤6により固着される」と記載されており、段落[0016]には、「制御用IC4裏面とMOSFET1表面が同電位となる」と記載されている。段落[0017]には、「制御用IC4とMOSFET1がAgペースト又は半田等の導電性接着材6により直接固着されている」と記載されている。これらの記載から、制御用IC4を固着するための広い伝導性領域が存在することが示唆されているため。

審査官が引用していない他分野の文献ケース

「含まれていない」が正解。

  • gpt-4-0125-preview
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 対象特許は半導体デバイスに関するものではなく、幹細胞の製造方法に関するものであるため、パッシベーション領域に関する記載は含まれていない。
少なくとも一つの伝導性ボンドパッド領域 含まれていない 出現位置なし 対象特許は半導体デバイスに関するものではなく、幹細胞の製造方法に関するものであるため、伝導性ボンドパッド領域に関する記載は含まれていない。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれていない 出現位置なし 対象特許は半導体デバイスに関するものではなく、幹細胞の製造方法に関するものであるため、伝導性領域に関する記載は含まれていない。
第一のダイ 含まれていない 出現位置なし 対象特許は半導体デバイスに関するものではなく、幹細胞の製造方法に関するものであるため、ダイに関する記載は含まれていない。

対象特許は、半導体デバイスではなく、幹細胞の製造方法に関するものであるため、判定対象の記載内容に関する記述は含まれていません。したがって、パッシベーション領域、伝導性ボンドパッド領域、伝導性領域、およびダイに関する記載は含まれていないと判定されます。

  • claude-3-sonnet-20240229

以下のように構成要素ごとに判定します。

構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 明細書中に記載がない。
少なくとも一つの伝導性ボンドパッド領域 含まれていない 出現位置なし 明細書中に記載がない。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれていない 出現位置なし 明細書中に記載がない。
第一のダイを具備する半導体デバイス 含まれていない 出現位置なし 明細書は幹細胞の培養方法に関するものであり、半導体デバイスについての記載はない。

この特許は幹細胞の培養方法に関するものですので、半導体デバイスの構成要素は含まれていないと判断されます。

  • claude-3-opus-20240229

以下の表に、判定結果を示します。

構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 明細書中にパッシベーション領域に関する記載が見当たらない
少なくとも一つの伝導性ボンドパッド領域 含まれていない 出現位置なし 明細書中に伝導性ボンドパッド領域に関する記載が見当たらない
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれていない 出現位置なし 明細書中に第二のダイを受容するサイズの広い伝導性領域に関する記載が見当たらない
表面を有する第一のダイ 含まれていない 出現位置なし 明細書中に第一のダイに関する記載が見当たらない
半導体デバイス 含まれていない 出現位置なし 明細書中に半導体デバイスに関する記載が見当たらない
  • gemini-1.5-pro-latest
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれていない 出現位置なし 明細書および図面において、パッシベーション領域に関する記載は確認できませんでした。
少なくとも一つの伝導性ボンドパッド領域 含まれていない 出現位置なし 明細書および図面において、伝導性ボンドパッド領域に関する記載は確認できませんでした。
少なくとも第二のダイを受容するサイズの広い伝導性領域 含まれていない 出現位置なし 明細書および図面において、第二のダイや伝導性領域に関する記載は確認できませんでした。
第一のダイ 含まれていない 出現位置なし 明細書および図面において、ダイに関する記載は確認できませんでした。
半導体デバイス 含まれていない 出現位置なし 明細書および図面において、半導体デバイスに関する記載は確認できませんでした。

対象特許は、アテロコラーゲンを含有する足場材料を用いた幹細胞の製造方法に関するものであり、半導体デバイスの構成要素に関する記載は確認できませんでした。

  • command-r
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている [明細書] 多能性幹細胞の製造方法 など 本文中に「パッシベーション」という用語は登場しないが、多能性幹細胞の製造方法、あるいは、多能性幹細胞の増殖方法が記載されており、多能性幹細胞の製造・増殖に関連する記載であることから、パッシベーション領域が含まれていると判定した。
伝導性ボンドパッド領域 含まれている [明細書] アテロコラーゲン など 本文中に「伝導性ボンドパッド」という用語は登場しないが、アテロコラーゲンに関する記載が複数登場しており、アテロコラーゲンは伝導性物質であることから、伝導性ボンドパッド領域が含まれていると判定した。
第二のダイを受容するサイズの広い伝導性領域 含まれている [明細書] マイクロキャリア など 本文中に「第二のダイ」や「サイズ」という用語は登場しないが、マイクロキャリアに関する記載が複数登場しており、マイクロキャリアは複数の細胞を受容するサイズであることから、第二のダイを受容するサイズの広い伝導性領域が含まれていると判定した。
  • command-r-plus
構成要素 含まれている/含まれていない 出現位置 判定の理由
パッシベーション領域 含まれている [0015], [0016], [0017], [0018], [0019], [0020], [0021], [0022], [0023], [0024], [0025], [0026], [0027], [0028], [0029], [0030], [0031], [0032], [0033], [0034], [0035], [0036], [0037], [0038], [0039], [0040], [0041], [0042], [0043], [0044], [0045], [0046], [0047], [0048], [0049], [0050], [0051], [0052], [0053], [0054], [0055], [0056], [0057], [0058], [0059], [0060], [0061], [0062], [0063], [0064], [0065], [0066], [0067], [0068], [0069], [0070], [0071], [0072], [0073], [0074], [0075], [0076], [0077], [0078], [0079], [0080], [0081], [0082], [0083], [0084], [0085], [0086], [0087], [0088], [0089], [0090], [0091], [0092], [0093], [0094], [0095], [0096], [0097], [0098], [0099], [0100], [0101], [0102], [0103], [0104], [0105], [0106], [0107], [0108], [0109], [0110], [0111], [0112], [0113], [0114], [0115], [0116], [0117], [0118], [0119], [0120], [0121], [0122], [0123], [0124], [0125], [0126], [0127], [0128], [0129], [0130], [0131], [0132], [0133], [0134], [0135], [0136], [0137], [0138], [0139], [0140], ... (省略) ... [0646], [0647], [0648], [0649], [0650], [0651], [0652], [0653], [0654], [0655], [0656], [0657], [0658], [0659], [0660], [0661], [0662], [0663], [0664], [0665], [0666], [0667], [0668], [0669], [0670], [0671], [0672], [0673], [0674],

最後に

今回の検証の評価方法では、Command R, Command R+の日本語での精度はGPT4, Claude3 Sonnetより適合率の観点で芳しくありませんでした。 特にCommand R+は含まれていないものを含まれていないと判定する能力が弱そうです。

ただ、これはGPT,Claude3,CommandR+で同じプロンプトで検証しており、Command R, Command R+向けにプロンプトエンジニアリングをすれば改善する可能性があります。 また、Command R, Command R+は、他のLLMとは異なり、BingチャットのようなAIが生成した結果はどの文献のどの箇所に基づいたかという引用元・参照元を合わせて生成させるようなRAG特化の機能もあります。

https://docs.cohere.com/docs/retrieval-augmented-generation-rag

今後はこの機能を活用したり、Command R+向けのプロンプトエンジニアリングなどをして、有用性を検証してみたいと思います。