GENPACについてGENPACは、PubMedで提供されている文献アブストラクトから生物学的概念間の相互作用情報を抽出しデータベース化したものです。ここで言う生物学的概念とは、遺伝子/タンパク質、化合物、疾患の3つで、これらの間の相互作用情報を、テキストマイニングの手法を使って文献のタイトルとアブストラクトから抽出しています。 PubMedで提供されている文献のアブストラクトはまず、東京大学の辻井研究室が開発した英語構文解析器Enjuにより構文構造を解析します。構文解析の結果判明するセンテンス中の主語と目的語に対して、当社の開発した遺伝子、化合物、疾患の専門用語辞書を使用した辞書引きを行います。その結果、主語・目的語が遺伝子、化合物、疾患のいずれかの生物学的概念を表しており、なおかつ動詞が主語・目的語間の相互作用を示しているセンテンスを主語・動詞・目的語の3つで表される生物学的概念間の相互作用情報として抽出し、データベースに格納します。また、抽出された相互作用情報に対しては、元の文献のPubMed ID、発表年、ジャーナル名、文献に付加されたMeSH termなどを関連情報として同時にデータベースに格納しています。 このように、GENPACとはPubMedのようにユーザーが入力したキーワードと関連のある文献を調べるためのツールではなく、ユーザーが入力したキーワードが他の遺伝子、化合物、疾患と相互作用することについて言及した文献を調べるためのツールとなっています。そのため、検索に使用するキーワードは検索するための生物学的概念を正確に指定する必要があり、この正確なキーワードを指定するために第一段階としてフリーキーワードによる生物学的概念のキーワード検索を行い、その検索結果を用いて第二段階の相互作用情報の検索を行うという形を取っています。 GENPACの二段階の検索上で述べたように、GENPACによる検索では相互作用情報の検索に用いる生物学的概念を指定するための検索と、指定した生物学的概念を用いた相互作用情報の検索の2段階から成っています。GENPACによる相互作用情報の検索方法の詳細については「GENPACの使い方 基礎編」をご覧ください。 2009年1月現在のGENPACには11種の生物(ヒト、マウス、ラット、ゼブラフィッシュ、ショウジョウバエ、線虫、シロイヌナズナ、出芽酵母、分裂酵母、枯草菌、大腸菌)の遺伝子、化合物、疾患の合計85万語からなる専門用語辞書を使用し、98万件のアブストラクトから抽出した180万件の相互作用情報が格納されています。 |
||