|
FAQ(よくあるご質問)は、今後も随時更新します。採り上げて欲しいご質問やご意見・ご感想等ございましたら、ぜひこちらからお寄せ下さい。
1. GENPACについて
Q:GENPACの特徴は何ですか?
A:
GENPACの特徴は、東京大学で研究された最先端の研究成果をもとに開発された独自の専門用語辞書と自然言語解析プログラムを利用した深い構文解析(Deep Parsing)にあります。この2つを利用し抽出された、非常に信頼性と網羅性の高いデータです。
Q:どのような用途に使えますか?
A:
1. 情報・知識の抽出と整理・統合、2. 新規知識の発見、3. 創薬ターゲット、分子マーカーの探索、4. 実験のデザインなどにご利用いただけます。
情報抽出の活用事例としては、キーワード検索をかけることにより、遺伝子・タンパク質・化合物間の関係を抽出することができます。 (例)遺伝子(タンパク質)⇔遺伝子(タンパク質)、化合物⇔遺伝子、疾患⇔遺伝子・化合物・疾患、遺伝子ファミリー⇔遺伝子・合物・疾患、など。
さらに、PubMedなどと組み合わせることで、特定の論文集合からの情報抽出など柔軟に利用することも可能です。
詳しい利用方法はHow to use GENPAC(基礎編+応用編)へ
Q:どのような生物種に関する辞書がありますか?
A:
ヒト、マウス、ラット、ゼブラフィッシュ、ショウジョウバエ、線虫、シロイヌナズナ、分裂酵母、出芽酵母、枯草菌の10種類です。
Q:辞書の情報量はどの程度ですか?
A:
遺伝子、タンパク質名辞書: 180,000 / 1,000,000以上*
化合物名辞書: 400,000 / 1,700,000以上*
疾患名辞書: 23,000 / 64,000以上*
*: シノニムを含んだ総ターム数
Q:今後、辞書の生物種を増やす予定はないのですか?
A:
順次、ニーズの高いものから増やしていく予定です。
また、お客様からご要望があれば、別途辞書を作成することも可能です。
→ お問い合せ
Q:どのような文献を対象にしているのですか?
A:
MEDLINEに登録された論文のアブストラクトを検索対象としています。
Q:MEDLINEとは何ですか?
A:
医学分野で世界最大の文献データベース。1966年からNLM(米国国立医学図書館)でデータ収集が始まり、現在毎月約6万件の文献が新たに追加されている。米国を中心に1600万件以上の論文の書誌情報(引用文や要約)が収録されている(2005年12月現在)
Q:PubMedとGENPACは共にMEDLINEを検索対象にしていますが、どのように違うのですか?
A:
PubMedは検索キーワードを含む論文を見つけ出してくることに適しているに対して、GENPACは検索キーワードを含む論文のほか、検索キーワードを構成要素とする関係情報をご提供します。
PubMed検索で得られるのはあくまでアブストラクトと文献リストですので、お客様は文章や論文をひとつひとつ読まなければ、本当に自分が欲しい情報を得ることができません。
これに対して、弊社のシステムでは、「自然言語処理」という方法を使い遺伝子や疾患、化合物の文章や論文に書かれている関係の一覧を提示するので、読みたい文献をあらかじめ絞りこむことができます。また、論文間にまたがる知識を俯瞰し、新規知識の発見や実験のデザイン、論文の分類・整理にご利用いただくことができます。
また、弊社では同義語・多義語を多数含む辞書を用意しているので、検索キーワードが別名で表記されている文献も漏れなく検索したり、検索キーワードと同じ表記であっても異なる意味で使用されている文献を検索結果から効率的に除外することができます。
Q:本文は検索の対象とならないのですか?
A:
GENPACでは、著作権などの問題もあり、現在は検索対象としていません。しかしながら、将来的に著作権の問題が解決されれば、対象とすることを考えております。一方、弊社では、お客様が個別に購入されている論文やジャーナルについて、全文を対象とした受託情報抽出サービスもおこなっています。詳しくは弊社までお問い合せください。
Q:どれくらいの情報量があるのですか?
A:
遺伝子/タンパク質、化合物、疾患の関係と関係のタイプ(例、Activate、inhibitなど)、合計100万件以上がデータとして蓄積されています。
Q:データの更新頻度はどの程度ですか?
A:
月1回です。またデータ修正に伴う更新は随時行っています。
Q:どのような利用形態があるのですか?
A:
ASPサービス、システム提供、データ提供、辞書カスタマイズサービスがあります。詳しくは、お問い合せ下さい。
2. 大量データ処理に関して
Q:アレイのデータを丸ごと取り込むことはできますか?
Q:大量データ処理では幾つくらいの遺伝子を一度に指定できますか?
A:
最大投入数は2000です。但し、処理性能を考慮すると最大1,000程度を推奨します。
2000以上で利用したいお客様はください。
(無料で利用する場合は、最大10までとなっております。)
Q:大量データ処理の入力ファイル記述方法を教えてください。
A:
Entrez Gene IDまたはUniProtKB/Swiss-Protのaccession numberで、1行に1つ番号を記入したファイルを作成してください。
オプションでEntrez Gene ID、UniProtKB/Swiss-Prot accession numberのどちらかを選択してから、検索を実行してください。
Q:大量データ処理で入力データとして使用できるデータの種類を教えてください。
A:
Entrez GeneのID、UniProtKB/Swiss-Protのaccession number、PubMedのID、を使って検索できます。
3. Cytoscapeに関して
Q:Cytoscapeとは、なんですか
A:
生物学的ネットワークの可視化プラットフォームです。Javaによるオープンソースプロジェクトで、誰でもフリーで使用できます。解析機能が優れており、弊社では、GENPACで抽出した関係データをCytoscapeを用いて、ネットワークとして可視化、解析することを推奨しています。日本語ブログもあり、Cytoscapeについて詳しく紹介されています。
→ Cytoscape についての情報源
Q:どのような用途に使えるのですか?
Q:Cytoscapeの動作環境について教えてください
A:
Java Runtime Environment Version 6.0以上がインストールされていることです。
→ 入手先: SUN website
Q:Cytoscapeの入手方法を教えてください
Q:Cytoscapeの利用方法を教えてください
Q:GENPAC専用のCytoscapeプラグインについて教えてください
Q:相反する論文があった場合、Cytoscape上の表示はどのようになるのですか?
A:
両方のエッジ(関係)がCytoscape上に表示されます。GENPACでは相反する関係を抽出した場合でも一方を削除する等の処理はしていません。
Q:GENPACによる抽出データをCytoscapeで表示するために必要なファイルは何ですか?
A:
・GENPACからダウンロードされる“.xgmml”ファイル
・nalapro.vizmap.props
・.nalapro.conf
・.NalaProLinkOut.props.xml
上記ファイルの導入方法は、「Cytoscape インストール方法」をご参照ください。
Q:起動の方法は?
A:
①Cytoscapeがインストールされたフォルダの下にある“cytoscape.bat”(もしくは、“Cytoscape.exe”)をダブルクリックして起動。
(Cytoscapeインストールフォルダ例: C:\Program Files\Cytoscape_v2.5.1)
②“File”メニュー、“Import”,“Vizmap property files”を選択して、
“nalapro.vizmap.props”を読み込んでください。
How to use GENPAC基礎編もご参照ください。
Q:ファイルの読み込み方法は?
A:
【.xgmmlファイルの場合】“File”メニュー、“Import”,“Network”から、ネットワークファイル(.xgmml)を読み込む。
【.cysファイルの場合】“File”メニュー、“Open”から、セッションファイル(.cys)を読み込む。
How to use GENPAC基礎編もご参照ください。
Q:レイアウトの変更
Q:ネットワークからGENPAC辞書へのリンク
A:
・各ノードの属性値を確認したい場合は、ノード選択し、“Plugins”メニューから、“Seaerch GENPAC/Dictionary”を選択してください。
・各インターラクションの詳細を確認したい場合は、ノードを選択し、“Plugins”メニューから、“Search GENPAC/Data”を選択してください。
・また、ノードを選択し、右クリック、プルダウンメニューから、EntrezGeneやReactomeなどの外部データベースに飛ぶことができます。
Q:ネットワークから論文(Pubmed)へとリンクできますか?
A:
確認したいエッジを選択し、右クリックすると、Pubmedへのリンクのガイドが表示されるので、それに従って進んでください。
Q:ネットワークのノードから再検索する方法は?
Q:ノード間の経路を探す方法
Q:ノードの色は何を表していますか?
A:
ピンクは遺伝子・タンパク質、オレンジは遺伝子ファミリ名、化合物は緑、疾患(生物学的現象)は水色で表されます。
Q:エッジの色は何を表していますか?
A:
GENPACでダウンロードされるファイルのうち、ファイル名が“MMP9_class.xgmml”など“_class.xgmml”で終わるファイルは、ノード間の関係(動詞)を5種類のクラスに分類し、標記しています。赤は促進(activateなど)、青は抑制(inhibitなど)、黄色は物理的相互作用(bindなど)、緑は制御(controlなど)、黒はその他の関係を表しています。一方、 ファイル名が“_relation.xgmml”で終わるファイルは、ノード間の関係を論文に登場した動詞の原形を用いて表記しており、ネットワーク上での色の区別はありません。
Q:ノードの色が表示されなくなくなりました。対処法は?
A:
Cytoscapeの画面上部の真ん中付近にあるプルダウンメニューから“nalapro”を選択してください。もし “nalapro”が選択されているにもかかわらず、ノードの色が表示されてない場合、一旦、別の項目(defaultなど)を選択してから再度“nalapro”を選択してください。
Q:部分ネットワーク(サブネットワーク)の抽出の仕方は?
A:
1. マウスの左クリックを押したまま、部分ネットワークとする範囲を指定する。もしくは、shiftキーを押しながら、複数のノードを選択する。
2. File > New > Network > From selected nodes, all edges を選択してください。
How to use GENPAC応用編5もご参照ください。
Q:データの保存方法
A:
“File”メニューから“Save”を選択し、任意の名前(拡張子は入力しなくてもよい)で保存(自動で拡張子.cysが付く)。このCysファイルを開く時は、“File”メニューの“Open”から、cysファイルを読み込んでください。
Q:ネットワークを画像として保存する方法は?
A:
1.“File”メニューから“Export”、“Network AS Graphics”を選択。
2. 上段のボックスでファイル名および保存場所を指定し、
3. 下段のプルダウンメニューから“pdf”を選択。
4. Optionボタンを押し、Orientationのプルダウンメニューから、横長サイズ(Landscape)、縦長サイズ(Portrait)のいずれかを指定してください。
Q:ネットワーク上に出てきたものに対して、繰り返し抽出することは可能ですか?
Q:生物種別ネットワーク(Pathway)を作成することは可能なのですか?
A:
可能です。抽出元の文献集合を特定の生物種について記述されたものに限定することによって、精度の高い生物種別のネットワーク図を作成することができます。特定の論文集合を用いて情報抽出する方法については、「GENPAC応用編1」をご参照ください。
4. Firefoxについて
Q:Firefoxとは何ですか?
A:
Firefoxとは、オープンソースのブラウザソフトのことです。Mozilla非営利法人団体と言う開発元からリリースされていて、そのプログラムは、誰でも見ることができるように公開されています。そのため最新の拡張機能といわれるものが世界中のプログラマーによって無償で作られています。
→ Firefox ウェブサイトへ
Q:Firefoxは何処にいけば手にはいりますか?
Q:Internet Explorer (I.E.) では見ることが出来ないのですか?
A:
GENPACの基本的な機能はWebブラウザに依存しないので全て利用することができます。
5. トラブルシューティング
Q:Zip Fileを開けられないのですが?
A:
ZIP Fileは実質的な世界標準のデータ圧縮形式及びファイルフォーマットです。
Fileを空けるためには、ZIP解凍ツールが必要となります。使用しているOSにより解凍方法は異なります。
Windows XPをお使いのお客様
- 展開したいzip形式のファイルを右クリックしてメニューを表示する。項目「すべて展開」を選び、画面の指示に従い解凍してください。
その他のお客様
- ZIP解凍ツールをお持ちでないお客様は、解凍ツールをダウンロードできるサイトよりZIP解凍に対応したツールを入手してください。
なお、ナラプロ・テクノロジーズは、使用される解凍ツールにおいていかなる損害が発生したとしてもその賠償責任を負いかねます。入手される解凍ツールの使用に関しては全て使用者個人の責任において行なってください。
Q:GENPAC画面共通で、ボタンを押しても何も実行しない。あるいは、ページが再読込みされる。
A:
ページを読み込んでから一定以上の時間がたちサーバーとの連絡が切れている場合、このようなことが
起こる可能性があります。ブラウザの再読込みボタン(キーボードより F5 キー)を押してください。
Q:辞書検索結果一覧画面で、同じシンボル、名前なのに ID が違うエントリが複数登録されている。
A:
例えば、ひとつの生物の同じ遺伝子であっても、複数の公共データベースにそれぞれ登録されています。
このような情報は相互参照リンクなどを使って1つの辞書エントリにまとめられていますが、なかに、リン
ク情報の不足や曖昧性のためまとめきれていないものがあります。また、異なる生物種の遺伝子は、
HomoloGene など公共データを元にしてまとめています。そのため、弊社辞書が参照している公共データ
に登録されていない生物種間の関係は、まとめられていません。
データ検索での漏れを防ぐため、同じ遺伝子と思われるエントリは [ 選択 ] してデータ検索を実行してく
ださい。
Q:顧客辞書詳細で、項目名だけで何もない。
A:
該当するデータが無い場合は、項目欄だけあり、データは出力されません。
Q:顧客辞書詳細で、CAS番号のリンクを押しても正しく表示されないことがある。
Q:辞書検索項目入力画面で、初めて検索するが、どの検索方法を使えばよいか分からない。
A:
検索したい遺伝子、薬、疾患の名前が分かっている場合は、[ 辞書検索 ] からはじめてください。
特に検索したいものが無いが、検索結果に興味がある場合は、[ 保存した条件を読み込む ] からはじめて
ください。誰かが保存した検索式を使って検索することができます。どのような検索結果が得られるのか
興味がある場合は、この方法が良いかもしれません。
Q:辞書検索で、検索に時間がかかる。
A:
検索時間はコンピュータのハードウェアの性能や、同時に検索しているユーザの数によって変わってきま
す。 また、“大文字・小文字”の“区別しない”や、“部分検索”は時間がかかります。
検索したいものの名前が分かっている場合は、“大文字・小文字”の“区別しない”を使わず、“完全一致”
で検索してください。 また、“遺伝子”、“化合物”、“疾患”のどれかもチェックしてください。
Q:辞書検索で、実際にある名前なのに、辞書で見つからない。
A:
“シノニム検索”、“大文字・小文字”の“区別しない”、“部分検索”をチェックして検索してください。
それでも見つからない場合は、辞書に未登録です。
Q:検索結果の画面で、表の項目名を押すとデータが消えてしまいます。
A:
消えるわけではありません。大きな表の場合、分割して表示していますので、違うページに表示されていま
す。 ページを移動するか、ページに表示するデータ数を増やすか、どちらかを試してください。
Q:検索結果の画面で、[ 文参照 ] や [ 詳細へ ] で表示される内容が表の内容とずれているように思える。
A:ページ間の移動を画面の [ 前ページ ] [ 次ページ ] ボタンではなく、ブラウザのページ移動ボタンを使い
ますと、内容がずれることがあります。ページの移動にはブラウザのページ移動ボタンではなく、画面に表
示されているボタンをご利用ください。
Q:ダウンロードファイルを Cytoscape で読み込んでも正常に表示しない。また名前などの属性を表すファイルがあるということだが見当たらない。
A:
複数のファイルを ZIP 形式で1つにまとめた形で、ファイルはダウンロードされます。まず、ダウンロード
したファイルを右クリックして「すべて展開」を実行してください。展開によって作成されたフォルダにある
ファイルを Cytoscape に読み込んでください。
|