CreateField Blog

オープンソースを使って個人でWebサービスを開発・運営していたブログ

自然言語処理

特許データで学習させたSpherical Text Embeddingの結果を眺める

はじめに これは、情報検索・検索エンジン Advent Calendar 2019 の 22日目の記事です。 かなり遅れてしまいましたが、Advent Calendar 2019の記事を書きます。 意味的に類似するドキュメントを検索するために活用される技術の1つとして、Word Embeddingが…

特許の検索・分析サービスPatentfieldをリニューアルしました

はじめに 私は、2015年1月よりIP Nexusというスタートアップに所属しています。 仕事でPG書いたことがない人間が知財のWeb系のスタートアップに転職した話 - CreateField Blog IP Nexusのメンバーは、投資銀行での経歴をもつ米国とドイツの知財訴訟弁護士や…

全文検索エンジンGroongaからword2vecを簡単に使えるプラグイン

はじめに Groonga Advent Calendar 2015の11日目の記事です。 GroongaはC/C++で書かれた高速な国産の全文検索エンジンです。 word2vecは、Googleが研究評価用に作った単語の特徴をベクトルで表現しニューラルネットモデルで教師なし学習をさせるツールです。…

word2vecをDockerでプレーンテキストから簡単に使えるようにしました

はじめに Dockerで簡単に使えるようにしてみた第2弾です。前回は、専門用語を自動抽出してくれるTermExtractをプレーンテキストで簡単に使えるようにしたDockerファイルについて紹介しました。 最近はword2vecが非常に話題になっていますが、word2vecは環境…

専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました

はじめに 品詞のつながりや出現頻度、学習情報から複合語らしきキーワードを自動で抽出するPerlモジュールTermExtractが公開されています。 これを利用すれば、形態素解析済みのテキストを食わせるだけでそこそこそれらしい専門用語をたくさん得ることができ…

日米特許のデータを使ってword2vecを試してみた

はじめに 去年あたりから流行っているらしいword2vecが面白そうだったので日本特許の要約データと米国特許の要約データを使って試してみました。 word2vecは、類語やアナロジー(類推)等を取得することができます。 word2vecの使い方は非常に簡単で、空白区切…