3. 遺伝子機能予測

Jul2014東京工業大学「バイオインフォマティクス」演習 topへ戻る

遺伝子の機能を知るためには

まず、機能が「本当の意味で」判明している遺伝子は驚くほど少ないことを認識しましょう。

実験で知る・推し量る

  • 酵素活性をはかる
    • 遺伝子(DNA)→転写→RNA→翻訳→タンパク質
    • タンパク質をとり、どんな酵素活性をもつのか調べる
  • 逆遺伝学
    • 古典的遺伝学 形態や現象から遺伝子へ
    • 逆遺伝学 遺伝子から形態や現象へ=遺伝子を「潰す」
  • 転写産物の動態を観察する

類推する方法は?

    • 配列の類似
      • 配列が似ていれば機能も似ている(多分)
      • 類似の類似の類似の類似は類似ではないかもしれない
        • 「相同 (homology) 人の手=猫の足=鳥の羽
        • 「相似」(similarity) コウモリと鳥の羽、パンダの親指
      • 部分一致している部分は機能と関わらないかもしれない
      • 機能とかかわらない領域の部分的な一致が非常に危険

「嘘類似」の問題回避法

      1. 配列類似検索の対象は、信頼できるライブラリから順に使う
      2. 配列類似検索以外の機能予測方法を用いる
        • 機能に関わるタンパク質の部分配列(モチーフやドメイン)
        • InterPro: さまざまなタンパク質機能探索のための統合データベース
          http://www.ebi.ac.uk/interpro
      3. 注釈の「根拠 (evidence)」が明示できる方法で注釈する
        • see: http://www.geneontology.org/ -> Documentation -> Evidence Code Guide
          • IDA (Inferred from Direct Assay)
          • TAS (traceable author statement)
          • IEA (Inferred from Electronic Annotation)
          • ISS (Inferred from Sequence or Structural similarity) etc.

【実習】InterPro・GO

1. InterProScan

モチーフ、プロファイル検索のまとめがけ、Gene Ontrogyにまで到達可能な優れたアミノ酸配列解析総合サイト

  1. googleの検索窓に「InterProScan」と入れて、googleで探し出す ( http://www.ebi.ac.uk/interpro/ )
  2. Enter or paste a PROTEIN sequence in any supported format: の枠に以下の配列をコピペする (ctl-C then ctl-V)
    >opsin Rh2(Drosophila melanogaster)
    MERSHLPETPFDLAHSGPRFQAQSSGNGSVLDNVLPDMAHLVNPYWSRFAPMDPMMSKIL
    GLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFYY
    ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKILFI
    WMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLICYS
    YWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDKSAEGKLAKVALTTISLWFMAWTPYL
    VICYFGLFKIDGLTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVFGNTD
    EPKPDAPASDTETTSEADSKA
  3. 「Submit」をクリックしてジョブをスタート

(問題が生じたとき使う:検索結果へのリンク1)

  • この配列がもつモチーフ・プロファイルを確認しましょう(G_PROTEIN, 7tm, OPSIN, Visual pigments (opsins) retinal binding site, etc.)
  • 【発展】どのようなプログラムが使われているのか?それぞれの詳細について知っておきましょう

2. GO

遺伝子機能注釈のための生物共通語彙を提供。evidence が明記されているのはすばらしい

http://www.geneontology.org生物の体内時計 (circadian clock) に関する遺伝子について検索してみましょう

    1. circadian rhythm (GO:0007623) で検索
    2. Total: 2278 遺伝子が見つかる
    3. 左ペインの Taxon から Arabidopsis, Mouse, Human などを選択し、生物種を絞り込む
    4. 左ペインの Evidence type から direct assay evidence (IDS), traceable author statement (TAS) などでしぼりこんで情報の信頼性の高いアノテーションを選抜する

3. TogoAnnotation (旧 KazusaAnnotation) の活用

  • ソーシャルブックマークによるゲノムアノテーション蓄積/改善/統合サイト。
  • 5,830 報文から 66,787 遺伝子に関する 388,914 アノテーション (2014年7月24日現在) を収集
  • なぜこんなものをつくったのか
    • ゲノムの「アノテーション」が怪しい
      • アノテーションとは、遺伝子の場所や機能を推測した情報
    • アノテーションの改善が必要。しかしあまりに膨大
    • 大勢の力を結集することが必要
    • そのための仕組みとして、ソーシャルブックマークを利用する
      • 普通のブックマークはあなたのパソコンのなか、ソーシャルブックマークはネット上で共有するブックマーク
      • 詳細は、googleで検索してみてください
  • どんな情報が入っているのか
    • シアノバクテリア(酸素発生型光合成細菌)
    • 根粒菌(細胞内共生型窒素固定最近)
    • 高等植物(マメ科植物のミヤコグサ)

とくにかずさDNA研究所が世界で初めて全ゲノムを決定した独立栄養生物であるSynechocystis PCC6803の論文はほぼ全部、入力されています。これはすごい!

TogoAnnotationの利用例

  1. http://togo.annotation.jp/ を開いてみましょう
  2. 酸素発生型光合成細菌のSynechocystisの光合成系IIの遺伝子psbA3のアノテーションを検索しましょう。右上の検索窓に「Synechocystis psbA3」と入れて「検索」を押します
  3. sll1867 の赤い字でしめされた「1802 annotations」(数字は増えているかもしれません)をクリックすると sll1867 遺伝子についたアノテーション(=ブックマーク)が一覧されます。遺伝子シンボルの表記の揺れが人力で解消されていることに注目してください(psbA3, psbA, psbAIII, psba-3)
  4. Pubmed ID (例えば 12228353) をクリックすると、その遺伝子に言及した論文の情報が表示されます。そこからPubmedに行くこともできます。
  5. Section Table や Gene Index のなかの sll1867 をクリックすると、当該遺伝子のデータベース中の遺伝子特徴のサマリページが表示されます。そのページ中の Reference 欄に、この遺伝子に言及している全ての論文がマニュアルキュレーションされています。

4. ExPASy

proteomics に関係したオリジナルツール&他サイトへのリンクが豊富

http://www.expasy.org/

  • The ExPASy (Expert Protein Analysis System) proteomics server of the Swiss Institute of Bioinformatics (SIB) is dedicated to the analysis of protein sequences and structures as well as 2-D PAGE
  • タンパク質の同定 (peptide mass fingerprint, pI, MW etc.): Aldente, TagIdent, MultiIdent, AACompIdent
  • 翻訳後修飾や切断部位の推定: Findmod, FindPept, GlycoMod などなど、多数のツールを提供。

Jul2014東京工業大学「バイオインフォマティクス」演習 topへ戻る