自然言語処理
はじめに これは、情報検索・検索エンジン Advent Calendar 2019 の 22日目の記事です。 かなり遅れてしまいましたが、Advent Calendar 2019の記事を書きます。 意味的に類似するドキュメントを検索するために活用される技術の1つとして、Word Embeddingが…
はじめに 私は、2015年1月よりIP Nexusというスタートアップに所属しています。 仕事でPG書いたことがない人間が知財のWeb系のスタートアップに転職した話 - CreateField Blog IP Nexusのメンバーは、投資銀行での経歴をもつ米国とドイツの知財訴訟弁護士や…
はじめに Groonga Advent Calendar 2015の11日目の記事です。 GroongaはC/C++で書かれた高速な国産の全文検索エンジンです。 word2vecは、Googleが研究評価用に作った単語の特徴をベクトルで表現しニューラルネットモデルで教師なし学習をさせるツールです。…
はじめに Dockerで簡単に使えるようにしてみた第2弾です。前回は、専門用語を自動抽出してくれるTermExtractをプレーンテキストで簡単に使えるようにしたDockerファイルについて紹介しました。 最近はword2vecが非常に話題になっていますが、word2vecは環境…
はじめに 品詞のつながりや出現頻度、学習情報から複合語らしきキーワードを自動で抽出するPerlモジュールTermExtractが公開されています。 これを利用すれば、形態素解析済みのテキストを食わせるだけでそこそこそれらしい専門用語をたくさん得ることができ…
はじめに 去年あたりから流行っているらしいword2vecが面白そうだったので日本特許の要約データと米国特許の要約データを使って試してみました。 word2vecは、類語やアナロジー(類推)等を取得することができます。 word2vecの使い方は非常に簡単で、空白区切…