RefExの使い方

動画でわかるRefExの使い方

  • 統合TV - RefExの使い方 より
  • 検索の方法と結果の表示

    RefExで検索可能な5つの方法

    トップページでは、以下の5つのパターンでの検索が可能です。 各検索は、左メニューの生物種選択の部分で選択された生物種のデータベースに対して行われます。デフォルトはヒトです。他の生物種に対して検索したい場合は、先に検索したい生物種を選んでから検索を開始してください。

    キーワードで検索

    遺伝子名、同義遺伝子名および遺伝子シンボルに対して検索窓に入力したキーワードで検索します。

    キーワードは途中まで入力すると、その文字列に合致するキーワードがサジェスチョン表示され、そちらを選択することで検索窓に容易にキーワード入力を行うことができるようになっています。

    組織特異的に発現する遺伝子を見る

    組織40分類の各分類に対して、その組織で特異的に発現している遺伝子のデータセットを表示します。表示されるデータセットは、ROKUのデータを基に特異的に発現していると判断されたデータで、その中でさらに特異度の高い(エントロピーの低い)データの順にソートされて表示されます。

    40分類の選択は、まず組織10分類の画像上にカーソルを合わせ、その分類に属する40分類の組織のリストが表示されるので、そこから選択してクリックすることで行います。

    遺伝子オントロジー

    トップページには、代表的な遺伝子オントロジーのリストが表示されています。それぞれクリックすると、そのオントロジーに関連する遺伝子のリストが表示されます。表示順はGeneChip発現量データの降順です。

    これ以外のオントロジーについて検索したい場合は、「他のオントロジーを選ぶ」リンクをクリックします。すると、遺伝子オントロジーのリストページに移動し、その中で自分の興味のあるオントロジーを選んでクリックすると、それに関連した遺伝子のリスト一覧が表示されます。

    遺伝子ファミリー

    トップページには、代表的な遺伝子ファミリーのリストが表示されています。それぞれクリックすると、そのオントロジーに関連する遺伝子のリストが表示されます。表示順はGeneChip発現量データの降順です。

    ほかのファミリーについて検索したい場合は、「他のファミリーを選ぶ」リンクをクリックします。するとファミリー一覧のページに移るため、その中で自分の興味のあるファミリー名をクリックすると、それに属する遺伝子のリスト一覧が表示されます。

    染色体

    「染色体領域を選ぶ」リンクをクリックすると、染色体領域の一覧が表示されます。その中から自分の興味のある領域をクリックするとそれに属する遺伝子の一覧が表示されます。表示順はGeneChip発現量データの降順です。

    検索結果のレイアウト

    表示項目

    以下の項目がリスト表示されます。
    遺伝子名
    • 遺伝子名と同義遺伝子名および、そのレコードの4つのIDがそれぞれ表示されます。
    • 発現データ以外の情報(遺伝子名、同義遺伝子名、遺伝子ファミリー、遺伝子オントロジーなど)はすべて、Gene IDを基にアノテーションされているため、Gene IDが同じレコードは発現データ以外は全く同じ情報を持ちます。
    • 同義遺伝子名については、遺伝子名シソーラスのデータを用いています。こちらのデータ内にラットのデータがないため、現状ラットについては、同義遺伝子名がすべて-で表示されます。
    • 対象レコードに関連付けられた4つのIDのセットで、レコードが一意的に識別できるようになっていて、すべてのレコードはこの4つの組が異なっています。
    3Dマップ
    GeneChipデータの組織40分類の相対発現量を3D人体画像にマップした画像が表示されます。この画像はGeneChip40分類のデータから事前に作成した3Dマップ画像を読み込んでいます。
    相対発現量
    組織10分類の相対発現量を、バーの高さおよびそれに対応するヒートマップの色で表示します。 EST、GeneChip、CAGE、RNA-seqの各データを同じ形式で表示することで、比較しやすくなっています。 10分類のラベルは画像で表示しておりますが、カーソルを載せるとツールチップで表示させるようになっています。このツールチップの中身は、選択中の言語で表示されます。 また、棒グラフにカーソルを合わせると、そのグラフの組織10分類の組織名と発現量(絶対値)が表示されます。こちらも、選択中の言語で表示されます。

    表示件数

    検索結果は、デフォルトで1ページ当たり10件の表示となっていますが、1ページ当たりの表示件数の数字を選択することで、10、20、50、100のいずれかに変更することができます。

    絞り込み検索機能

    表示されている遺伝子リストに対してさらに条件を加えて絞り込みを行いたい場合に使用します。 どのキーに対して絞り込みを行うかをドロップダウンリストからまず選択し、そのあとで下の検索窓にキーワードを入力してください。 以下のキーに対して絞り込み検索が可能です。
    • Gene Name or Symbol 遺伝子名または遺伝子シンボルに対して絞り込み検索を行います。
    • Interpro Description その遺伝子が所属する遺伝子ファミリー名に対して絞り込み検索を行います
    • Gene Ontology Description その遺伝子に関連付けられる遺伝子オントロジーのDescriptionに対して絞り込み検索を行います。
    • Gene ID Gene IDに対して絞り込み検索を行います。
    • Refseq ID Refseq IDに対して絞り込み検索を行います。
    • Unigene ID Unigene IDに対して絞り込み検索を行います。
    • Probe set ID Probe set IDに対して絞り込み検索を行います。
    • Interpro ID その遺伝子が所属する遺伝子ファミリーのInterpro IDに対して絞り込み検索を行います。
    • GO ID その遺伝子に関連付けられる遺伝子オントロジーのGO IDに対して絞り込み検索を行います。

    ソート機能

    ドロップダウンメニューからソート項目を選択すると、その項目に対してソートされた結果が表示されます。 組織特異的に発現する遺伝子の検索結果を表示させている場合、デフォルトの表示は、特異度でソートされた結果となりますが、この場合、ソート項目の欄は空欄で表示されます。また、このソート機能を用いて一度ソートすると、特異度によるソートの情報は失われ選択した項目でのソート結果が表示されます。(一度ソートを行うと、特異度により再ソートすることはできません)

    検索結果のダウンロード

    検索結果一覧のデータをタブ区切りテキストファイルの形式でダウンロードできます。 ダウンロードされるデータの項目は以下の通りです。
    フィールド名 サンプル 説明
    # 15 通し番号
    Refseq ID NM_001402 Refseq ID
    Gene ID 1915 Gene ID
    Unigene ID Hs.586423 Unigene ID
    Probe set ID 204892_x_at Probe set ID
    Description eukaryotic translation elongation factor 1 alpha 1 遺伝子名
    Interpro_top NULL 最上位遺伝子ファミリー
    ChromosomalResion 6q13(-) 染色体領域
    est10_max 4678.8 組織10分類EST発現量のうち一番値が大きい組織の絶対発現量
    cage10_max 64887 組織10分類CAGE発現量のうち一番値が大きい組織の絶対発現量
    genechip10_max 13.33 組織10分類GeneChip発現量のうち一番値が大きい組織の絶対発現量
    rnaseq10_max 2325.82 組織10分類RNA-seq発現量のうち一番値が大きい組織の絶対発現量
  • 詳細ページのレイアウト

    以下の項目について、対象の遺伝子の情報を表示します。
    1. 遺伝子名
    2. 同義遺伝子名
    3. ヒートマップ on BodyParts 3D
    4. 組織40分類データ
    5. IDs
    6. オーソログ対応遺伝子
    7. 染色体
    8. 遺伝子ファミリー(Interpro ID)
    9. 遺伝子オントロジー(GO ID)
    IDsおよび発現量以外の遺伝子情報については、Gene IDをキーとしてアノテーションした情報です。 よって、Gene IDが同じで他のIDが違う場合、IDおよび発現量以外の情報はすべて同じです。

    1. 遺伝子名

    NCBIサイトで提供されるgene_infoデータを使用して、Gene IDをキーにアノテーションしたデータを表示します。 ftp://ftp.ncbi.nih.gov/gene/DATA/gene_info.gz 発現データはあるが、このファイルからGene IDをキーとして遺伝子名を取得できなかったデータについては、遺伝子名を-で表示しています。また、遺伝子名はそのページのタイトルにも表示されます。詳細情報のリンクをクリックすると、ページ下部の詳細情報の欄に移動(ページ内遷移)します。

    2. 同義遺伝子名

    同義遺伝子名はLifeScience DBで提供される以下のデータを使用して、取得された情報を表示します。 http://lifesciencedb.jp/MEXT_H18/download/dictionary.zip 参考:遺伝子名称シソーラス ラットのデータはこの辞書に含まれていないため、ラットについてはすべての同義遺伝子名が - 表記となっています。

    3. ヒートマップ on BodyParts3D

    • 組織40分類のGeneChipデータをBodyParts3Dにヒートマップでマッピングしたデータを表示します
    • 画像データは、BodyParts3Dで提供されるAPIを経由して動的に生成されていいます。
    • 全体表示、中心部のみの表示、頭部のみの表示の3種類の表示の仕方があり、さらにオプションで、「皮膚・骨格筋の表示」、「アニメーション表示」が可能です。
    • 画像下のバーを左右にドラッグすることで動的に画像の向きを変えることができます。
    • GeneChipのデータが存在しないレコードの場合は、この部分は表示されません。

    4. 組織40分類別データ

    EST、GeneChip、CAGE、NGS(RNA-seq)の4つの発現データについて、組織40分類のデータを表示します。 表示の仕方は、以下のとおりです。
    • バーの高さは各40分類データの、40分類内の相対発現量を表す。
    • バーの色は、組織10分類に換算したときの、10分類内の相対発現量をヒートマップ表示した色に対応する。(検索結果一覧の組織10分類相対発現量の色に一致)
    • データが存在しない場合は、「no data」と表記される。
    各棒グラフの上にマウスを載せると、その棒グラフに対応する組織40分類の項目名(選択した言語で表示)と絶対発現量がツールチップとして表示されます。

    5.IDs

    • 対象レコードのRefseq ID、Gene ID、Unigene ID、Probe set ID、Ensembl IDをそれぞれ表示。
    • Refseq ID、Gene ID、Unigene ID、Probe set IDのいずれかが異なるデータは別レコードとみなされる。
    • Ensembl IDはRefseq IDから対応付けされるすべてのIDが表示される(複数対応付けられる場合があるがすべて表示される)
    • Ensembl IDはオーソログ対応遺伝子の関連付けに使用されている。
    の記号があるリンクは、外部サイトへのリンクとなっており、どのサイトに移動するかは、ツールチップで表示するようになっている。

    6. オーソログ対応遺伝子

    Ensembl IDをもとにオーソログ対応している他の生物種の遺伝子へのリンクが表示される。件数が0件の場合は、リンクしない。 リンクをクリックすると、検索結果一覧のページに移動し、オーソログ対応遺伝子のリストが一覧表示される。

    7. 染色体

    各遺伝子の染色体番号の情報(バンド名、分染法)は、Gene IDを基に、NCBIのサイトで提供される以下を用いて取得されている。 ftp://ftp.ncbi.nih.gov/gene/DATA/gene_info.gz 染色体上の位置(数値)については、BioMartより取得されている。 バンド位置をクリックすると、そのバンド位置に属する遺伝子の一覧が表示される。また、その隣の染色体上位置の数字をクリックすると、Ensemblサイトに移動し、その位置に対応する染色体位置の情報が表示される。 URL例:http://uswest.ensembl.org/Homo_sapiens/Location/View?r=12:54673977-54680872 対象遺伝子に染色体上の位置的に近い遺伝子を調べられるように、-5kb~+5kbおよび-10kb~+10kbの範囲にある遺伝子のリストへのリンクが表示される。 1つの遺伝子に複数の染色体上の位置が対応する場合があるが、その場合、すべてのケースが表示されるようになっている。

    8. 遺伝子ファミリー(Interpro ID)

    各Gene IDに対応する遺伝子ファミリーの情報は、BioMartを用いて生成された対応表から取得されている。 Interpro IDのDescriptionは、EBIより提供される以下のデータを用いて情報を取得している。 ftp://ftp.ebi.ac.uk/pub/databases/interpro/names.dat Interpro IDをクリックするとそのIDのファミリーに属する遺伝子の一覧にリンク(RefExで該当ファミリーをキーにして再検索)する Interpro DescriptionをクリックするとEBIのサイトに移動し、そのInterpro IDの詳細情報が表示される。 URL例:http://www.ebi.ac.uk/interpro/DisplayIproEntry?ac=IPR000504

    9. 遺伝子オントロジー(GO ID)

    Gene IDにアノテーションされるGene Ontologyの情報は、NCBIのサイトで提供される以下を用いて取得されている。 ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz GO IDをクリックするとそのIDの遺伝子オントロジーに関連する遺伝子のリストにリンク(RefEx内で該当GOをキーとして再検索)する。 GO IDのDescriptionをクリックすると、Gene Ontologyサイトに移動し、そのGOの詳細情報が表示される。 URL例:http://amigo.geneontology.org/cgi-bin/amigo/term-details.cgi?term=GO:0008380
  • 発現データの処理

    • 再利用可能なデータの選抜

    • 組織・臓器の分類

    • 発現データのサマライズ

    • 各種IDの対応付け

      各遺伝子発現データはそのデータセット内でデータを一意的に識別するIDがついているが、データセットによって付与されているIDの種類が異なる。以下の種類のIDがある。

       
      • Ensembl ID (オーソログ対応情報のアノテーションに必要)
      • Refseq ID (CAGE, RNA-seqデータのオリジナルID)
      • Gene ID (遺伝子のアノテーション情報のオリジナルID)
      • Probe set ID (GeneChipデータのオリジナルID)
      • Unigene ID (ESTデータのオリジナルID)
       

      RefExでは上記複数のIDをGene IDに変換して統合し、発現データ以外の遺伝子固有のアノテーション情報(遺伝子名、遺伝子ファミリー、遺伝子オントロジー、染色体上位置など)についてはGene IDをキーとしてアノテーションを行っている。また、遺伝子のIDとして広く用いられているRefseq IDをメインのIDとして採用し、検索結果の一覧表示および遺伝子情報詳細ページで用いている。

      オリジナルIDとGene IDおよびRefseq IDの対応付けは、BioMartもしくは、NCBIで提供しているID変換用のテーブルを用いて行う。それぞれ、以下のとおりである。

      1. Ensembl IDとRefseq IDの対応付け Ensembl IDとRefseq IDの対応表はBioMartを利用して生成
      2. Probe set IDとRefseq IDの対応付け Probe set IDとRefseq IDの対応付けはBioMartを利用して生成
      3. Gene ID と Refseq IDの対応付け NCBIのサイトで提供される以下のデータ (gene2refseq) を用いて、Gene IDとRefseq IDの対応表を生成 ftp://ftp.ncbi.nih.gov/gene/DATA/gene2refseq.gz
      4. Unigene IDとGene IDの対応付け NCBIのサイトで提供される以下のデータ (gene2unigene)  を用いて、Unigne IDとGene IDの対応表を生成 ftp://ftp.ncbi.nih.gov/gene/DATA/gene2unigene

      上記対応表により、ID間の対応付けをすることができるが、このIDの対応付けは複数対複数対応であるため、IDの対応付けにあたっては、その複数の対応付けを維持するかどうか、もしくは、複数の対応付けのうちの1つのみ採用するかどうかのルールを事前に決めておく必要がある。

      RefExでは、以下のルールで各種データセットに対するIDの対応付け(Refseq IDとGene IDの付与)を行っている。

      • EST

        • ESTは元データがUnigene IDで提供されているが、ESTのデータがない遺伝子については、Unigene IDを付与しない。
        • ESTのデータがある場合、gene2unigene 対応表を用いて Unigene IDからGene IDへの変換を行う。この際、1つのUnigene IDに対して複数のGene IDが対応付けられる場合があるが、これについては、一番数字の小さいGene IDをそのUnigene IDに対応するGene IDとして採用する。
        • この変換ルールで、複数のUnigene IDが同じGene IDに対応付けられる場合がある(Unigeneでは分かれていたクラスターが同じ遺伝子に対応付けられる場合がある)。これに関しては、Gene IDは同じだが、その由来(ESTの発現データ)が異なるため、それぞれを区別して表示できるようにする。そのため、Unigene IDを内部的に残しておき、Gene IDが同じでもUnigene IDが異なるデータは違うレコードとして扱うようにする。
        • Gene IDからRefseq IDへの変換は、gene2refseq 対応表を用いて行う。この際、1つのGene IDに対して複数のRefseq IDが対応付けられる場合があるが、これについては、すべての対応を保持する。つまり、Refseq IDのみ異なる複数のレコードが生成される場合がある。
      • GeneChip

        • GeneChipは元データがProbe set IDで提供されているが、GeneChipのデータがない遺伝子についてはProbe set IDを付与しない。
        • GeneChipのデータがある場合、BioMartを用いて取得したProbe set IDとRefseq IDの対応表を用いて、Probe set IDからRefseq IDにIDの変換を行う。この際、1つのProbe set IDに複数のRefseq IDが対応付けられる場合があるが、これについては、すべての対応を保持する。
        • 遺伝子のアノテーション情報を得るためにGene IDを付与する必要があるが、これについてはgene2refseq 対応表を用いてIDの変換を行う。この際、1つのRefseq IDが複数のGene IDに対応付けられる場合があるが、これについては、一番数字の小さいGene IDをそのRefseq IDに対応するGene IDとして採用する。
        •  上記ルールで対応付けた場合、Refseq IDのみ異なる複数のレコードが生成される場合があるが、これは許容する。
      • CAGE, RNA-seq

        • CAGEおよびRNA-seqは元データがRefseq IDで提供されているため、そのままそのRefseq IDを使用する。
        • 遺伝子のアノテーション情報を得るためにGene IDを付与する必要があるが、これについてはgene2refseq 対応表を用いてIDの変換を行う。この際、1つのRefseq IDが複数のGene IDに対応付けられる場合があるが、これについては、一番数字の小さいGene IDをそのRefseq IDに対応するGene IDとして採用する。
    • オーソログ対応

      • 異なる生物種間のオーソログ対応遺伝子の情報は、BioMartにより取得するが、この際、Ensembl IDでオーソログ対応の対応表が得られる。そのため、Ensembl IDをRefseq IDに変換して、Refseq IDをキーとして各遺伝子にオーソログ対応のアノテーションを行う。
      • Ensembl IDからRefseq IDへの変換は、BioMartを用いて取得したIDの対応表を用いて行う。この際、1つのEnsembl IDに対して複数のRefseq IDが対応付けられる場合があるが、これについては、すべての対応を保持する。
    • データレコードの生成

      RefExの検索対象となる発現データのレコードは、上記ルールに基づき統合した場合、以下のように生成されたデータレコードセットと同じになる。

      1. EST, CAGE, GeneChip, RNA-seqのすべての発現データについて、上記ルールに基づき、Refseq IDを付与。
      2. すべての発現データに付与されたRefseq IDを統合し、4種のデータセットのいずれか1つにでも出現するRefseq IDのリストを作成。
      3. このようにして作成したRefseq IDのリストに対して、ESTのデータがある場合はRefseq IDをキーとしてUnigene IDを結合(Left join)。この時、1つのRefseq IDに複数のUnigene IDが結合される場合があるが、異なるデータレコードとして扱う。
      4. 次に、GeneChipのデータがある場合は上記で作成したリストに、Refseq IDをキーとしてProbe set IDを結合(Left join)。この時、1つのRefseq IDに複数のProbe set IDが結合される場合があるが、異なるデータレコードとして扱う。
      5. 上記手順で作成された、Refseq ID、Unigene ID、Probe set IDの組合せは一意的な組み合わせになっている。これをRefExの検索対象となる発現データのレコードとする。この際、Gene IDはRefseq IDより対応付けられる一意的なIDを使用する。

    RefExで使用されている用語・データの定義および解説

    • 組織特異的遺伝子

      • RefExでは各臓器で特異的に高発現している遺伝子を検索することができます。RefExで提供している組織特異的遺伝子は、 GeneChip40分類データセット ( humanの場合 は human_genechip40.txt ) をもとに、組織特異的発現遺伝子の検出手法の1つである ROKU ( Kadota et al., BMC Bioinformatics ) を用いて、組織特異性の高い遺伝子を抽出したものです。
      • ROKUによって、赤池情報量規準(AIC)に基づく外れ値判定が行われ、各臓器において測定された遺伝子発現量は「1:特異的高発現、-1:特異的低発現、0:その他」からなるフラグ情報にそれぞれ変換されます。また、組織特異的発現遺伝子の外れ度合い(entropy score)のランキングを同時に行い、このスコアが低ければ低いほど「(どの組織で特異的かはこのスコアだけでは分からないが)組織特異性が高い遺伝子」を示します。
      • これらのデータを用いて、ある臓器の列で「1:特異的高発現」のフラグがあり、かつ他の臓器で「1:特異的高発現」のフラグがない遺伝子について、entropy scoreが低い順にソートしたものを「組織特異的遺伝子」の検索結果として表示しています。 (外れ値のフラグ情報およびentropy scoreは表示されません。)
    • Gene Ontology

    • Gene Family

    • 染色体領域

    • 人体3Dマップ (BodyParts3D)

    • RefEx からダウンロード可能なファイルのフォーマットについて