はてなブログ初投稿です。
大学の授業でC言語をかじった程度のサラリーマンですが、1年半ほどをかけて、独学で特許の全文検索サービスを開発しました。
1年半前は、データベースもサーバサイドの言語もJavaScriptもまったく触ったことがなく、Ajaxって何?ってぐらいの技術レベルでしたが、ようやく先月公開することができました。
まだまだ未完成ですが、最大で1千万レコード以上、400GiB以上のサイズのテキストデータを高速に全文検索することができます。
このサービスでは、ただ公報データを全文検索するだけではなく、整理標準化データと呼ばれる権利の死活情報等を含む数十種類の項目を組み合わせて検索することができます。これにより、一般の利用者が特許を侵害していないかどうかを確認し易く、また、特許期限切れのフリ―な技術情報を簡単に参照できるようにしています。
また、特許の世界では、日本で出願した特許出願が翻訳され、同じ発明の内容が様々な国で外国特許出願されます。この同じ発明の内容の特許出願をパテントファミリーといいます。このサービスでは、日本出願のパテントファミリー情報を独自に蓄積しており、パテントファミリーの有無に応じた絞り込みも可能となっています。
たとえば、米国に特許出願されている日本特許出願を検索し、日本特許出願と、対応する米国特許出願を比較すれば、技術用語の対訳表現を抽出することができます。これにより、特許明細書の技術者や翻訳者が技術用語を簡単に調べることができるようにしています。
このサービスでは、サーバサイドの言語にPHP、データベースにMySQL、全文検索エンジンにMroonga(Groonga)、連想検索エンジンにGETAssocを使用しています。
今後について
このブログでは、主に、独学でWebサービス開発、運営するにあたり、つまったこと、調べたこと、感じたこと、等を記録していきたいと思います。
なお、単純な技術メモについては、MediaWikiをつかった以下のWikiでまとめています。
今後は、上記サービスの運営、改善をしつつ、Droonga、Ruby、Rails、Bootstrapあたりを勉強しつつ、新しく全文検索を使ったサービスを作りたいなぁと思っています。