根の成長を数式モデル化することで、側根の長さを比較する

生物学には数式モデルから実際の生物学的現象を説明する、”数理生物”と呼ばれる分野が存在します。数理生物学では、生物学的現象を物理学・化学の公式で解析的に記述し、現象の”核”となっている物理・化学的現象を解き明かします。

 

数理生物学は大きな分野で、実際の生物学的現象をうまく説明したモデルは山のようにあります(Monsi and Saeki 1953など)。しかし、一般的なモデルでは現実のデータと解析的に明らかにされた予測との間をつなぐのが非常に困難です。そもそも生物学的現象はバラツキを持ちますし、解析的な予測と完全一致する現象はまれです。では、どの程度予測と現象が一致していれば、そのモデルが正しいと言えるのでしょうか?

 

このデータとモデルの不一致性と、一致の度合いの問題については昔から疑問を持っていました。予測と現象が一致しないときはモデルがおかしいのか、データがおかしいのか、それとも両方問題があるのか、多くの場合不明です。データとモデルの一致を検証する方法がなければ、モデルの正しさを説明できません。

 

このページで説明する方法は、逆のアプローチを取っています。つまり、データを説明できる数式を準備することで、データを説明する要因を求める、というアプローチです。この方法では、データと数式を一致させるため、モデルの正しさは担保できます。一方で、モデルは物理学・化学の公式に基づかないため、”本当の現象”には近づきません。

 

本研究が”モデル”と”データ”を近づける一助になればよい、と考えております。


  土壌の窒素栄養環境は根の構造に影響を与えます。一般的に土壌中の窒素量が多い場合には側根が短く、少ない場合には側根は長くなります。更に窒素量が少ない場合には植物の成長は阻害され、主根、側根ともに短くなります。 窒素だけでなく、その他の栄養(リン、カルシウム、鉄、マグネシウムなど)も根の形に大きな影響を与えます(Gruber et al. 2013)。このような根の形の変化は、主根の長さ、側根の長さ、側根の数の変化で説明することができます。しかし、どの栄養素が、どのような根の形の変化に影響を及ぼしているのか、詳細についてはよく分かっていません。これは、根の形の変化自体をうまく記述する方法が無いことに部分的に依存しています。

  当たり前ですが、側根は主根から生えます。したがって、側根の総数は主根の伸長速度の影響を受けます。さらに、発生した側根のすべてが主根から出てくるわけではありません。発生した側根のうち50%前後は、側根に分化するにも関わらず、成長せず主根内に留まります(Lucas et al. 2008)。側根の原基の成長速度も、出てくる側根の数に影響を与えます。出てきた側根に関しても、その伸長速度は一個体内の側根ですらバラバラで、側根1本1本の長さをライン間で比較しても意味がよくわかりません。したがって、側根が短くなることが観察された時に、それが主根が短くなったからなのか、それとも側根の数が減ったのか、あるいは側根が出てきにくくなったのかをきちんと評価しないと、側根がなぜ短くなったのか理解することはできません。

  根の構造から考えると、側根の長さの総和は、主根の伸長速度、側根の発生頻度、側根の出てくる割合、側根原基の成長速度、側根の伸長速度という5つのパラメータで説明できます。側根の長さを比較する場合には、これら5つのパラメータがどの程度異なっているのか、分離して説明する必要があります。しかし、これらのパラメータのうち3つ(側根の出てくる割合、側根原基の成長速度、側根の伸長速度)は測定が難しいため、直接測定することによって比較することができません。

 

 

 

図:側根の長さを説明する変数

側根の長さは5つの独立したパラメータで説明できる。2つのライン間の側根の伸長速度の違いを側根の長さで示すにはtypeAのようでないといけないが、実際はtypeBのように各パラメータにそれぞれ差がある。そのため、側根の長さでは側根の伸長速度は説明できない。


  僕のこの研究では、根の形態の時間変化を測定し、その測定結果を線形フィットすることで線形モデルを表す数式内のパラメータを推定し、その数式内のパラメータを比較することで上記の5つのパラメータの差を比較する、というアプローチを取っています。このアプローチを取ることで、測定不能なパラメータを推定し、側根の長さをきちんと比較することができるというのがこの研究の主な内容です。

  この論文ではまず、窒素濃度(3 mM、0.3 mM、0.03 mM)、窒素の種類(硝酸、アンモニア)を変えてシロイヌナズナを栽培しました。この植物の主根の長さ、側根原基(主根内に存在する側根)の数、全側根の数、側根の長さの総和の4つのパラメータを栽培開始後3-11日の間毎日測定し、その結果を以下の数式で線形回帰しました。

 


 

図2: 回帰に用いた数式

 

赤文字で示したパラメータが根の形態を反映する。パラメータは実験結果からMCMCを利用して計算した。PRは主根、LRNはすべての側根の数(出てきた側根+側根原基の数)、PLRNは出てきた側根の数、LRは側根の長さの総和、tは時間(単位はday)。計算したパラメータを比較することで、根のどの特徴が異なっているのかそれぞれ独立に推定できる。

 

数式だけ見ると何をやってるのかよくわかりませんが、要は2パラメータずつ(例えば主根と側根の総数)の回帰を時間tを考慮に入れつつ4段階スタックして行う、ということをやっている(はず)です。この回帰は複雑すぎる上にそもそもデータは正規分布しないので、Newton法や一般線形モデルなどで回帰することはできません。そこでMCMCを利用したベイズモデルでの回帰を行いました。この回帰の結果から、(1) 窒素が多いと側根の伸長速度が遅くなる、(2) 窒素が少なすぎると主根が短くなり側根が出てきにくくなる、(3) アンモニアで育てると側根が出てきやすくなるが、根の伸長は抑えられる、ということがわかりました。  

 

 

 さらっと書くと簡単ですが、正直これで全部正しいかと言うとちょっと微妙なところです。特に、側根が出てくるかどうかを判別するところ(PLRNの数式)は数式に時間を含んでいるので、側根が出てくる割合(数式の右のロジスティック式)は時間と独立ではないというのが気にかかるところです(そしてこのあたりが論文の結論に関わっています)。さらに、結果は時系列なのに、解析は時系列っぽくない(時系列データはこんな感じでモデル化することが多いようです、が、なかなか難しい上に合目的的でない)のもどうなのかというところではあります。他にもいろいろ気になるところはあります(初期値の設定がとても恣意的、結果の解釈も恣意的と言えば恣意的、この数式が本当に正しいモデルなのか評価するのが難しい、というか比較的フィットしやすいモデルではあるけど”生物学の理論”的に正しいモデルではありえない、そもそも収束がそれほどよくない上に収束に時間がかかりすぎる、出てきたパラメータの範囲から差があるとかないとか断言することはできない等)。何より僕はともかくEditorもReviewerもおそらくこれが正しいかどうか正確に判断できないけど論文は通るというあたり、これで本当にいいのかなあという気もします。いろいろ後々批判を受けそうですが、植物生理学の分野でベイズモデルを利用した仕事はおそらくこれが初めて(か、限りなく初めてに近い)なので、いろいろ批判を受けつつみんなが統計モデルを利用するようになっていけばいいんじゃないかと思っています。



この論文で利用したデータ、WinBUGSの計算に用いたスクリプト、グラフを書くのに利用したスクリプトをすべて公開します。

WinBUGSのコードを含むRのスクリプト (runbugs.R)
根の解析データ (data_NO3.txt, data_NH4.txt)

 

WinBUGSでの計算にはRと(当たり前ですが)WinBUGSをインストールする必要があります。久保さんのホームページを参考にするとインストールすることができると思います。WinBUGSのスクリプトは久保さんのラッパーR2WinBUGSというRのライブラリに依存しています。結果ファイルを特定のフォルダに保存して(もしくはHTMLを指定して)、RからWinBUGSを走らせれば論文と同じような結果が得られるはずです(が、計算はそのまま走らせると14時間ほどかかります)。

データはタブ切りテキストで、sampleが各サンプルの識別番号、Line_treatmentが処理(数字なら窒素濃度、文字なら栄養の種類)、Dayは測定日、plateはプレートの識別標識(1プレートに5-7個体播種して調べているので、プレート間誤差が生じる)、PRが主根長、LRは側根の長さの総和、LR.stageI_IVは若い側根原基(Malamy and Benfey 1997に載っている側根原基の分類に依存)、LR.stageV_VIIは比較的大きい側根原基、LR.stageVIIIは主根から出てきた側根の数、Totalは側根の総数(LR.stage~の合計)です。各サンプルは独立の個体の結果を示しています(側根原基は根を固定して透明化しないと見えないので、一個体を連続観察できない)。時系列解析の練習問題として、側根の成長モデルをデータを利用して作成する、もしくはもっと正確な方法で解析してCommentaryを投稿する等、思い思いに利用してもらえたらよいかと思います。


  論文で利用した統計的手法は「データ解析のための統計モデリング入門」に詳細に記載されています。基本的なRの使い方は「The R tips(もしくはhttp://cse.naro.affrc.go.jp/takezawa/r-tips/r.html)」、グラフの記述は「ggplot2: Elegant Graphics for Data Analysis 」と「Rグラフィックスクックブック」を参考にしました。MCMCは上記の久保さんのホームページこのページ、もしくはSlideshareのいくつかのスライド(これとかこれとかこれとか)を参考に勉強しました。  



詳細は論文を参照して下さい。