• ニュースメール
  • アフターサービス
  • 教科書献本のご案内
  • facebook
  • 構造計画研究所

バイオインフォマティクスの数理とアルゴリズム

書籍情報
シリーズ名アルゴリズム・サイエンスシリーズ 全16巻 適用事例編 【12】巻
ISBN978-4-320-12178-2
判型A5 
ページ数238ページ
発行年月2007年02月
本体価格3,000円
バイオインフォマティクスの数理とアルゴリズム 書影
バイオインフォマティクスの数理とアルゴリズム

 バイオインフォマティクス(bioinformatics)は生命情報学などと訳されるが,その名のとおり生物学と情報学の学際領域の学問分野であり,DNA配列をはじめとするさまざまな生物学データの情報解析技術の開発,および,それらの情報解析技術を利用して実際のデータを解析し新たな生物学的知識の発見を行なうことの2つが主目的となっている。名前の起源はよくわからないが,ヒトのDNA配列を決定しようというヒトゲノム計画が本格化した1990年代初めごろから目にするようになり,現在では学問分野のひとつとして,ある程度は認知されるに至っている。計算生物学(computational biology)という用語も欧米を中心に広く利用されているが,バイオインフォマティクスとの明確なちがいはなく,同義語と考えることができる。

 バイオインフォマティクスにはさまざまな情報分野の理論や技術が応用されてきたが,アルゴリズムはもっとも重要なもののひとつである。その理由のひとつは,DNA配列をはじめとする大量のデータを扱わなければならず,その効率的な処理のためにアルゴリズム的考え方が必要だということである。逆に,DNA配列やアミノ酸配列などのバイオインフォマティクスにおける主要なデータを文字列として扱うことができるため,文字列アルゴリズムの応用や新たな問題の定式化が行ないやすいということがあげられる。実際,文字列アルゴリズムの研究者でバイオインフォマティクスの研究に携わっている研究者も多い。

 筆者も当初は純粋にアルゴリズムの研究を志し,文字列アルゴリズムなどの研究を行なっていたが,いつのまにかバイオインフォマティクスのとりことなり,現在に至っている.バイオインフォマティクス研究の魅力は,実際に役に立つ可能性が高いということもあるが,それ以上に,生命の神秘を情報科学的立場もしくは数理的立場から解き明かせるかもしれないということにあると考えている。ヒトのDNA配列は30億文字程度からなっている。これは一見,多いように思えるが,A,C,G,Tの各文字が2ビットでコード化できることを考えると,CD-ROM1枚程度の量である。いまでは事務処理ソフトなどを購入すると何枚もCD-ROMがついてくるが,それよりも少ない量のDNA配列の中に,人間を個性のちがいまで含めて再構成できる情報が格納されているのである。そこには何かアルゴリズム的もしくは数理的な原理のようなものがはたらいているはずであり,それを解明したいということが筆者の願いである。

 これまで述べてきたことから,アルゴリズム的立場からのバイオインフォマティクスに関する教科書の必要性は十分にあると考えられる。しかしながら,すでに多くの教科書が出版されているのに,また新たな本を執筆する必要があるのだろうか? 執筆の打診を受けた際に一瞬そのことが頭をよぎったが,よく考えると既存の本には少なからず満足のいかない点があることを思い出した。バイオインフォマティクスの教科書は数あれど,アルゴリズム的観点から書かれたものは少なく,必ずしもわかりやすいとはいえない。また,配列データの取り扱いを中心としたものが多く,重要性が増しつつあるタンパク質立体構造や生体内ネットワークについては詳しく説明されていない。そこで,タンパク質立体構造や生体内ネットワークについてもより詳しく説明し,かつ,電車の中でも,もしくは,横になりながらでもほとんどの部分を読むことができ,さらに,主要なアルゴリズムの本質が理解できるような本をめざして執筆することにした。その目標は完全に達成されたとはいえず,本書でカバーしきれなかった話題も少なくないが,ある程度は実現できたのではないかと考えている。もちろんむずかしい,読みづらい,誤りがあるなどの可能性はおおいに残っているので,それらの批判は喜んで拝受し,改訂の機会があればぜひ取り入れていきたい。

 本書の構成は次のようになっている。1章では,本書を読むのに役に立つと思われる生物学的背景について説明している。しかしながら,全部が必要というわけではなく,DNA配列やアミノ酸配列が文字列として表現できることを最低限知っていれば,直接2章から読み始めることができる。2章では,バイオインフォマティクスで最重要と思われる配列アラインメントについて説明している。3章では,アラインメント以外の配列解析アルゴリズムについて説明している。4章では,進化系統樹の構成法を中心に説明している。5章では,RNAおよびタンパク質の立体構造の予測や比較について説明している。6章では,システム生物学の進展とともに重要になりつつある生体内ネットワークの数理モデルや特徴について説明している。最初に2.1節を読んだあとで他の箇所を読むことが多少望ましい以外は,各章は基本的に独立している。各節も独立している場合が多いため,むずかしい,もしくは,興味がないと感じた節は読み飛ばして次の節に移ることをお勧めする。

 本書はアルゴリズム的観点を中心に書いてあるが,一般的なバイオインフォマティクスの教科書として利用できることも意図している。ただし,アルゴリズム論における基本的な知識,とくに情報系の学部学生が2~3年生くらいで習う知識を仮定している部分がある。たとえば,グラフに関する基本的な定義や性質,多項式時間アルゴリズムやNP困難性の定義や意味などについての知識を仮定している部分がある。そこで,情報系以外の学生や研究者が本書を読まれる場合は,それらの部分を読み飛ばすか,もしくは,本シリーズの他の巻などを参考にしていただきたい。
(「まえがき」より)

目次

第1章 分子生物学概観
1.1 DNAとRNA
1.2 セントラルドグマ
1.3 タンパク質
1.4 分子生物学とデータベース

第2章 配列アラインメント
2.1 ペアワイズアラインメント
2.2 ローカルアラインメント
2.3 線形領域アラインメント
2.4 スコア行列とアラインメントスコアの統計的評価
2.5 ホモロジー検索
2.6 マルチプルアラインメント

第3章 配列解析
3.1 配列モチーフ
3.2 隠れマルコフモデル
3.3 カーネル法
3.4 ゲノム配列推定
3.5 ゲノム再編成

第4章 進化系統樹推定
4.1 有根系統樹と無根系統樹
4.2 系統樹の個数
4.3 距離行列法
4.4 最節約法
4.5 進化の確率モデル
4.6 系統樹の評価と比較

第5章 高次構造解析
5.1 RNA2次構造予測
5.2 RNA2次構造比較
5.3 タンパク質立体構造予測
5.4 タンパク質立体構造比較

第6章 ネットワーク解析
6.1 遺伝子発現データ解析
6.2 遺伝子ネットワーク
6.3 タンパク質相互作用推定
6.4 ネットワーク構造解析

参考文献
索引