NalaPro Technologies
 
お問い合せCutting Edge Natural Language Processing Solution
GENPAC相互作用データベース
GENPACについて
GENPAC活用事例
提供サービス
ナレッジベース
Publications
Japanese | English
Home » Knowledge Base » Publications

学会発表

ナラプロ・テクノロジーズでは、研究開発の成果について積極的に学会発表を行っています。

 

Second International Workshop on Intelligent Informatics in Biology and Medicine (IIBM 2009)
(2009年・福岡)

Collection of Disease Networks by Hybrid Curation Method and the Application for Pathway Analysis

Tatsuya Kushida1, Takao Asanuma1, Yoshihiro Okuda1, Yo Shidahara1, Toshihisa Takagi21 NalaPro Technologies, Inc., 2 Database Center for Life Science, ROIS)

The network information on biological phenomena, such as incurable diseases, which were seldom known until now, was collected from more than 18,000,000 biomedical articles by a hybrid curation method which consisted of a machine curation by an information extraction system, GENPAC, and a manual curation by biologists. So far, 64 kinds of disease networks which comprise nodes of genes, proteins, chemicals, and biological phenomena, and edges of the interaction types, such as "Activate" and "Bind" have been curated by the method. The information extraction of the networks shows high recall and precision rate, and furthermore, the disease networks information can be collected by the hybrid curation more efficiently than by only expert manual curation. It can be considered that the interaction and network information which is collected by the hybrid curation will be utilized for the functional annotation of gene clusters and discovering new subpathways on biological pathway maps.

発表スライドダウンロード(812 KB)

第31回日本分子生物学会年会・第81回日本生化学会大会合同大会
(2008年・神戸)

GENPACによって文献から抽出した相互作用情報に基づく遺伝子クラスターの機能予測

櫛田達矢1, 奥田喜弘1, 浅沼孝夫1, 仕田原容1, 吉野巌1, 高木利久21 ナラプロ・テクノロジーズ, 2 情報・システム研究機構 ライフサイエンス統合データベースセンター)

情報抽出システムGENPACを用いて、PubMedに収録される約1700万件の論文から、自然言語処理技術によって、遺伝子・タンパク質とMeSH termの相互作用情報の抽出を行い、遺伝子クラスターに対するMeSHを用いた機能情報を提供するプログラムを作成した。MeSHは、Medlineに登録される論文に対して、その索引付けや分類のために付与される約2万4千語の見出し語を持つ生命科学の語彙体系であり、Gene Ontology (GO)が十分に収録していない疾患や症状、副作用、解剖学用語なども網羅している。このため、MeSHを知識基盤とする今回のプログラムは、これまで適切な機能予測ができなかった医科学研究の分野においても、より適切な機能予測が可能になると考えられた。上記のプログラムの予測機能を評価するために、実際の実験データを用いて、GOなどの他の知識体系を用いた機能予測サービスと比較した。筋ジストロフィーマウスと、正常なマウスを対象に、マイクロアレイ発現解析実験を行い、それぞれの筋肉組織を生後3週間目にサンプリングし、疾患マウスの発現レベルが2倍以上になった遺伝子をリストアップし、MeSHを用いた機能予測を行った。その結果、これらの遺伝子に対して、Blood Coagulationや、Blood Plateletsなど血液凝固に関与する用語が割り当てられた。筋ジストロフィーにおける合併症や死因の一つに、血液凝固系の異常が知られており、生後3週間でこれらの機能に関する遺伝子群の発現が上昇する可能性が示唆された。一方、GOを基盤とする機能予測ツールBinGOを用いた場合、cell communication, signal transducer activityなど抽象的な上位概念が割り当てられ、血液凝固に関与する用語は割り当てられなかった。この結果は、MeSHを利用した今回開発した機能予測プログラムが、医科学の分野において既存のアノテーションサービスと比較して、より適切な解釈を提供することを示している。

発表ポスターダウンロード(812 KB)

第3回ラクトフェリンフォーラム(2008年・横浜)

テキストデータ分析ツールを用いたラクトフェリンの多機能性に関する情報整理と知識抽出

櫛田達矢1, 島崎敬一21 ナラプロ・テクノロジーズ株式会社, 2 北海道大学農学研究院)

ミルク中に存在する鉄結合性糖タンパク質であるラクトフェリンは、多くの生物学的な機能を有することが知られ、現在でも新たな機能が報告されている。抗菌作用をはじめとして、免疫賦活機能、がん予防効果、口腔衛生、動物医療など広くかつ精力的に研究が進められている。このようにラクトフェリンに注目する研究領域は、医学、歯学、獣医学、農学、食品学、栄養学など多岐にわたり、それぞれの分野で個々の機能についてそのメカニズムの解析も進められている。一方、ラクトフェリンの多機能性を議論するためには、機能や構造、機能および相互作用の関係性を入念に調べていく必要があるが、一研究者が専門性の異なる最新の研究成果を収集、整理し、さらにその中から生物学的に重要な知見を発見することは極めて困難な作業である。
本研究では、テキストデータ分析 (Textmining) と呼ばれる情報工学の技術を用いて、文献データベースPubMedから、効率的かつ網羅的にラクトフェリンの機能に関係する知見を収集、整理し、様々な分野の研究者がラクトフェリンの多機能性の理解を支援するデータの創出と環境の整備を行った。
テキストデータ分析には、ナラプロ・テクノロジーズ社のライフサイエンス向け情報抽出システムGENPACを用いた。GENPACは、PubMedに登録されている約1700万件の原著論文、総説を情報源として、センテンスに記述されている遺伝子、タンパク質、化合物および疾患の関係を自動的に抽出するシステムである。例えば、"Lf directly interacted with TRAF5"に対して、「Lf (Lactoferrin)」-(Interact)-「TRAF5」という三項関係を抽出し、さらにこの関係をノードとエッジからなるネットワーク図として表現することができる。
そこで、GENPACを用いてラクトフェリンおよびラクトフェリンと関係が指摘される抗酸化、血管新生などの約40種類の生物学的機能を対象に情報抽出を行い、それぞれのネットワーク図を作成した。これらのネットワーク図はツール上で重ね合わせや、実験の数値データを記入することが可能であり、ラクトフェリン関与の下、抗酸化と血管新生で共通に働く遺伝子リストの収集や、ネットワーク上での経路探索を実現している。GENPACはラクトフェリンの多機能性を理解する上で有益な情報を提供するツールと期待される。

発表ポスターダウンロード(1056 KB)

第5回バイオインフォマティクス学会オントロジー研究会
(2008年・東京)

自然言語処理技術GENPACを用いた新規の疾患パスウェイの収集と構築

櫛田達矢(ナラプロ・テクノロジーズ株式会社)

日本農芸化学会2008年度大会
(2008年・名古屋)

MEDLINEの文献情報を活用した遺伝子機能予測手法の開発

櫛田達矢, 奥田喜弘, 小林義行, 仕田原容, 浅沼孝夫, 吉野巌, 高木利久1(ナラプロ・テクノロジーズ株式会社, 1東大新領域・情報生命科)

第30回日本分子生物学会年会・第80回日本生化学会大会合同大会
(2007年・横浜)

自然言語処理技術GENPACを用いた新規疾患パスウェイの収集と構築

櫛田達矢1, 小林義行1, 仕田原容1, 奥田喜弘1, 吉野巌1, 辻井潤一2, 高木利久31 ナラプロ・テクノロジーズ, 2 東大情報理, 3東大新領域)

疾患や生物学的現象のメカニズムを理解する上で、また有効な治療法の検討や創薬の研究開発において、パスウェイやネットワークの知識を活用することは重要である。しかし、がんや副作用など多くの生物学的現象に関係するパスウェイやネットワークの知識はまだ十分ではない。本研究は、Medlineの文献データを活用して、端童顔など、これまであまり知られていない疾患、副作用など生物学的減少のパスウェイを構築し、これらの知識を発現解析など実験解析で用いられるようにすることを目的とする。Medlineの豊富な文献データを対象に、われわれが開発した自然言語処理技術を活用した情報抽出システムGENPACを用いて、遺伝子、タンパク質、化合物、疾患および生物学的現象を構成要素とする関係データの収集およびネットワークを構築した。情報抽出にGENPACのようなマシンキュレーションを用いる利点は、最新の情報を網羅的に収集できることである。また、抽出した関係データは、専門家によるマニュアルチェックを行った。私たちは、PubMedを用いて、胆道がん、バージャー病、アジソン病、鉄芽球性貧血、突発性血栓症、閉塞性血栓性血管炎、イレウス、ループス様症状などについて記述された論文を収集し、それぞれの疾患、副作用、生化学的現象のネットワーク約30種類を新規に構築した。ネットワークはCytoscapeを用いて可視化した。胆道がんのネットワークは胆道がんについて記述された14,836論文を対象に構築された。このネットワークは、MMP9など145個の遺伝子・タンパク質、PD98059など57個の化合物、Polyarteritis nodosaなど75種類の疾患から構成された。現在、構築されたネットワーク、パスウェイデータはCytoscapeを用いて、マイクロアレイなど実験の解析に用いることが可能である。また、これらのデータは、他の実験解析ツール、例えばGenMAPPのパスウェイリストに追加して解析に用いることも可能である。

発表ポスターダウンロード(2156 KB)

Genpac Search
Add to Firefox SearchFirefox 検索バーにインストール