DNAマイクロアレイの開発によりゲノム規模での遺伝子の発現量の測定が可能となって以来、遺伝子発現データはさまざまな研究グループにより異なる測定手法を用いて産生され、公共データベースに蓄積しつづけています。これらのデータは、仮説の構築、研究計画の立案、実験データの解釈など、さまざまな状況において幅広い分野の研究者に利用される汎用的なデータですが、その膨大さや多様さのため、それらを自らの研究に利用することは困難な場合があります。
RefEx (Reference Expression dataset) は、遺伝子発現解析の基準となる正常な組織や細胞などの大規模測定データを集め、並列に比較できるよう整理し、それらを快適に閲覧できるウェブツールです。
RefExについて引用する方法
あなたの研究に役立ったらぜひ引用してください。RefExの活動は、どのくらい活用されたかについて主に引用数などで評価されており、利用者の方の積極的なサポートが必要不可欠です。
Ono H, Ogasawara O, Okubo K, Bono H
RefEx, a reference gene expression dataset as a web tool for the functional analysis of genes
Scientific Data, 4:170105
DOI: 10.1038/sdata.2017.105
[Article] [PDF] [PubMed entry]
引用文献
RefExの特長
- 正常組織・細胞等の遺伝子発現データを ひと目で
- 複数の遺伝子発現計測手法によって得られた哺乳類の正常組織、細胞等における遺伝子発現データを収集し並列に表現することによって、各組織における遺伝子発現状況を計測手法間の差異とともに直感的に比較できることが特長です。RefExを利用することで、研究者は研究対象とする遺伝子が平常時にどの組織、細胞でどの程度発現しているのかについて、自ら実験をすることなく確認することができます。また、研究者がしばしば遭遇する馴染みのない遺伝子について、一般的には個別の研究論文における実験データや記述などからそれらの生物学的特徴を類推したりしますが、RefExでは実験デザインに左右されない大規模かつ網羅的な測定データから研究者自身の目でそれらを簡単に確認することができます。さらに、研究者の用意した複数の遺伝子IDについて一括で検索できる機能を備えているほか、リスト機能を用いて遺伝子の詳細データを並列に比較することができるため、遺伝子発現解析などで見出された遺伝子群の関係性を知るためのツールとしても有用です。
- 調べたい遺伝子を より探しやすく より分かりやすく
- もっとも基本的なキーワード·遺伝子名検索では文字を入力する度に検索語の候補が提示されるので、それらから選択することで容易にキーワード入力を行うことができます。また、 「転写因子」や「Gタンパク質共役受容体」、「2番染色体」などのように、ある分類に属する遺伝子群についてまとめて検索·比較できるよう整理されています。さらに、さまざまな実験における比較対照などに用いられる『組織特異的遺伝子』を測定データから独自に算出し、組織ごとに一覧することができます。Advanced searchでは、複雑な検索条件を一度に指定することが可能であり、あらかじめID情報などが手元にある場合には、目的とするデータに簡単に行き着くことができます。
- 直感的な可視化で 新たな知識発見・仮説構築を
- 検索結果一覧および個別の遺伝子の詳細情報ページでは、 組織間の比較と測定手法間(EST、GeneChip、CAGE、RNA-seq)の比較を両立させた相対発現量が棒グラフで示されるとともに人体の3DモデルであるBodyParts3D/Anatomographyに発現量を反映させたヒートマップが表示されます。またリスト機能を使えば、検索結果の個別の遺伝子について一時的に保存しておくことができます。リストに追加した遺伝子は、最大でその3つについて、40分類の組織·臓器における発現データを比較しながら、遺伝子に付与された機能に関する注釈情報(Gene Ontology他) を見比べることができます。これらの機能は、新たな知識発見あるいは仮説の構築をサポートします。詳細情報ページに記載された種々のIDには、それぞれRefExの内部リンクやオリジナルのデータベースサイトへの外部リンクが貼られており、同じ分類に属する遺伝子を再検索したり、RefEx自体を遺伝子検索の起点とすることもできます。
- 再利用可能で有用なパブリックデータの活用例
- RefExが提供するすべてのデータは、クリエイティブ·コモンズライセンスのもとで、オープンデータとして自由にダウンロードおよび再利用することができます。検索結果一覧や詳細情報ページのデータはいずれもダウンロードすることが可能で、研究者自身のデータと参照することも、それらを使った再解析も自由に行うことができます。 また、外部の研究データレポジトリ「figshare」にも全てのデータがDOI付きで公開されています(https://doi.org/10.6084/m9.figshare.c.3812815)。さらに、ソフトウェア開発プロジェクトのための共有ウェブサービス「GitHub」上にも、公開データの再解析に用いたプログラムやドキュメントを整理しており、RefExで提供する再解析データについてある一定の評価品質および再現性を担保しています(https://github.com/dbcls/RefEx)。RefExは生命科学データの共有および再利用の活用例のひとつであり、データ駆動型研究のためのデータセット、ウェブツールとしてだれでも自由に使うことができます。
RefExで採用している4つの実験手法
- EST
- NCBI UniGeneでまとめられたクローン情報を各ESTのライブラリーの記載を元に、 ライブラリーの材料別に展開して集計した材料種類別のクローン数です。
- GeneChip
- NCBI GEOから取得したAffymetrix社が作製したDNAマイクロアレイ「GeneChip」 によって測定された発現データです。取得したCELファイルはRMA (robust multiarray average)を用いて正規化しています。
- CAGE
- RIKEN FANTOM5 プロジェクトで集められたCAGE (Cap Analysis Gene Expression; キャップのついたmRNAの5’末端を捉えてシーケンスする手法) データです。ゲノムにマップされたCAGEタグの頻度情報はその転写物の発現量を反映していることを利用して発現データとしています。タグカウントを元にした発現データはTPM(Tag per million)で正規化されています。RefExに掲載されている処理済みデータは、オリジナルのFANTOM5 CAGE データの各TPMに1を加算した値をlog2変換した上で、サンプル分類ごとにまとめ、同じGeneIDで合算し、平均をとったものが表示されています。
- RNA-seq
- NCBI Sequence Read Archive、またはEuropean Nucleotide Archive より取得したIllumina Genome Analyzerで測定されたRNA sequencingの発現データです。 取得したシーケンスデータは、TophatおよびCufflinks、Cuffcompareを用いて発現領域の検出および既存遺伝子領域との対応付けを行っています。マッピングされたシーケンスリードはFPKM (Fragments Per Kilobase of exon per Million)で正規化しています。