CreateField Blog

オープンソースを使って個人でWebサービスを開発・運営していたブログ

2014-01-01から1年間の記事一覧

MroongaでGroongaの機能を使いこなす高度なテーブル設計をする方法

はじめに MySQL/MariaDBで高速に全文検索するためのオープンソースのストレージエンジンMroongaは、以下のように、Engine=Mroonga、FULLTEXT INDEX (${source_column})と書くだけで非常に簡単に全文検索を使い始めることができます。 CREATE TABLE memos ( i…

GroongaとTokyoCabinetのHash表のベンチマークについて

はじめに 全文検索エンジンGroongaは超高速な全文検索ライブラリとしての機能を有しますが、単純なハッシュ表等のAPIも提供されており、ファイルへの永続化前提のインプロセス型のKVS(key value store)としても利用することができます。 ファイルへの永続化…

GroongaとElasticsearchの転置索引の違いと更新反映速度について

はじめに こちらの記事では、GroongaとElasticsearchの単純な検索性能、更新性能、 ディスク使用効率を比較しました。 その結果では、Groongaの検索速度がElasticsearchよりも数倍ほど速く、Elasticsearchの更新速度がGroongaよりも数倍ほど速かったです。 …

word2vecをDockerでプレーンテキストから簡単に使えるようにしました

はじめに Dockerで簡単に使えるようにしてみた第2弾です。前回は、専門用語を自動抽出してくれるTermExtractをプレーンテキストで簡単に使えるようにしたDockerファイルについて紹介しました。 最近はword2vecが非常に話題になっていますが、word2vecは環境…

専門用語を自動抽出するTermExtractをDockerで簡単に使えるようにしました

はじめに 品詞のつながりや出現頻度、学習情報から複合語らしきキーワードを自動で抽出するPerlモジュールTermExtractが公開されています。 これを利用すれば、形態素解析済みのテキストを食わせるだけでそこそこそれらしい専門用語をたくさん得ることができ…

全文検索エンジンGroongaユーザ勉強会@神戸を主催しました

2014/06/27(金)に全文検索エンジンGroongaユーザ勉強会@神戸を主催しました。 開催のきっかけ 草の根Groongaイベントのお誘いを受けて、関西圏でもGroongaのイベントがあるといいなと思い、神戸でも開催してみることにしました。 会議室の確保 人の集まり具…

61st Ruby/Rails勉強会@関西でLTしました

以下は、LTの資料です。 MacとRabbitの操作に戸惑ってしまい、デモの検証が一部しかできませんでした。デモができなかった分の検証結果を追記しています。 Ruby kansai-20140531-ruby-kansai-20140531 from naoa_y 2014/6/27(金)19:00~神戸でGroongaの勉強…

「Mroongaを使ったときの MySQLの制限との戦い」という内容で初LTしました

MySQL勉強会 in 大阪(第6回)でLTっていうのをはじめてやってみました。 内容は、「Mroongaを使ったときの MySQLの制限との戦い」です。 資料づくりにほとんど時間をかけられなくてすごい雑です。また、現場でちゃんとLTを見たこともなかったので、趣旨や作法が…

国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch

2014年4月21日は、第4回Elasticsearch勉強会ですね! http://elasticsearch.doorkeeper.jp/events/8865 第4回Elasticsearch勉強会は、参加希望者が約200名の大反響なようです。 私は勉強会に参加できないので、C言語で書かれた国産の高速な全文検索エンジンG…

ブログタイトルを変更しました。

旧タイトル:独学Webサービス開発ブログ 新タイトル:CreateField Blog インターネット上には、たくさんの技術情報やソフトウェアを無償で提供されている方々がたくさんいます。 人から教えを請うていて、独学っていうのは独りよがりな感じがしたので辞めま…

数百GiBの全文検索用データベースをMroongaのストレージモードにしてはまったこと

前回は、全文検索Webサービスを作ったときにはまったことの第2回として、 Mroongaのラッパーモードからストレージモードに変えた理由という記事を書きました。 今回は、Mroongaのストレージモードにしたことによってはまったことについて書きたいと思います…

Mroongaのラッパーモードからストレージモードに変えた理由

前回は、全文検索Webサービスを作ったときにはまったことの第1回という記事を書きました。 今回は、Mroongaを使って全文検索Webサービスを作ったときにはまったことの第2回として、ラッパーモードからストレージモードに変えた理由について書きたいと思いま…

日米特許のデータを使ってword2vecを試してみた

はじめに 去年あたりから流行っているらしいword2vecが面白そうだったので日本特許の要約データと米国特許の要約データを使って試してみました。 word2vecは、類語やアナロジー(類推)等を取得することができます。 word2vecの使い方は非常に簡単で、空白区切…

Mroongaを使って全文検索Webサービスを作ったときにはまったこと(第1回)

前回のエントリに書いたように、1年半ほどをかけて、独学で特許の全文検索サービスを開発しました。 PatentField | 無料特許検索 最初は、MySQLを使ったこともない状態だったこともあり、かなり紆余曲折しました。Groonga開発チームの懇切な対応もあって、…

独学で特許の全文検索サービスを開発しました

はてなブログ初投稿です。 大学の授業でC言語をかじった程度のサラリーマンですが、1年半ほどをかけて、独学で特許の全文検索サービスを開発しました。 PatentField | 無料特許検索 1年半前は、データベースもサーバサイドの言語もJavaScriptもまったく触…