單細(xì)胞測序方法和原理系列:
所謂DNA文庫,實際上是許多個DNA片段,在兩端接上了特定的DNA接頭,形成的DNA混合物。
文庫有2個特點:
1. 當(dāng)中這一段插入的DNA,它的序列是各種各樣的。
2. 它的兩頭的街頭序列,是人工特異加上去的,是已知的。
要構(gòu)建文庫,首先需要把基因組DNA用超聲波打斷,之后把兩端用酶補(bǔ)平。再用Klenow酶在3’端加上一個A堿基,然后再用連接酶把接頭給連上去。連好了接頭的DNA混合物,我們就稱為一個文庫。
Illumina儀器對比。從最早的Miseq一天測三千萬條read,到Hiseq一天測30億條reads,再到Novaseq一天可以測130億條read,通量還是有一個非常大的提升。
文庫構(gòu)建好之后,后續(xù)就是做橋式PCR。橋式PCR是把文庫種到芯片上去然后進(jìn)行擴(kuò)增的這樣一個過程。
1)首先要把文庫加到芯片上。芯片的內(nèi)表面種滿兩種不同類型的oligo(寡核苷酸序列)。因為文庫兩頭的DNA序列和芯片上的引物是互補(bǔ)的,就可以發(fā)生互補(bǔ)雜交。
2)隨后加入dNTP和聚合酶,聚合酶會從引物開始,延著模版合成出一條全新的DNA鏈來。新的這條鏈和原來的鏈?zhǔn)莣an全互補(bǔ)的。
3)接下來加入NaOH堿溶液,DNA在NaOH堿溶液存在的情況下,就解鏈了。液流一沖,原來的模版鏈(沒有和芯片共價連接的鏈)就會被沖走,和芯片共價連接的 鏈就會被保留。
4) 再往液流池中加入中性液體(中和前面加入的堿液),這時DNA鏈上的另外一端就會和玻璃板上的第二種引物發(fā)生互補(bǔ)雜交。
5)加入酶和dNTP,聚合酶就沿著第二個引物合成出一條新的鏈來。
6)然后再加堿,把兩條鏈解鏈開,再加入新的中和液,這時候DNA鏈就會和新的引物雜交。再加酶,再加dNTP,又從新的引物上合成出新的鏈來。連續(xù)重復(fù)這一過程,DNA鏈的數(shù)量就會以指數(shù)方式增長。
橋式PCR完成之后,接下來需要把合成的雙鏈變成可以測序的單鏈。辦法是通過一個化學(xué)反應(yīng),把一個引物上的一個特定基團(tuán)給切斷掉,然后再用堿溶液來洗芯片。堿讓DNA雙鏈解鏈,那根被切斷了根的DNA鏈就被水沖掉了,留下那根共價鍵連在芯片上的鏈。接下來加入中性溶液,再在這個中性溶液里加入測序引物,隨后就可以開始正式的測序工作了。
在測序的時候加進(jìn)去的主要是兩個東西,一是帶熒光標(biāo)記的dNTP(3‘末端是被一個疊氮基堵住的),二是聚合酶。聚合酶就會選擇哪個dNTP是和原來位置上的那個堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,把這個dNTP合成到新的鏈上去。
因為dNTP的3‘端是被一個疊氮基團(tuán)堵住的,所以它一個循環(huán)只能延長一個堿基。合成之后,用水把多余的dNTP和酶給沖掉,放到顯微鏡下去進(jìn)行激光掃描,根據(jù)發(fā)出來的熒光判斷它是哪個堿基。因為4種dNTP上面標(biāo)記的熒光素都不一樣,根據(jù)熒光就可以判斷新合成的堿基是什么堿基。因為新合成的堿基和原來位置的堿基是互補(bǔ)的,就可以知道模版鏈的堿基是什么。
一個循環(huán)完成之后,就加入一些化學(xué)試劑,把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)切掉。切掉之后,3‘端的羥基就暴露出來,接下來加入新的dNTP和新的酶,就又延長一個堿基。之后把多余的酶和dNTP沖掉,再進(jìn)行一輪顯微的激光掃描,判斷堿基是什么。重復(fù)這個過程,就可以把上百個甚至更多個堿基的序列讀出來。
因為illumina的測序量很大,但一個樣本往往用不了幾億條DNA。所以科學(xué)家就想了一個辦法,在文庫的接頭上做了一些標(biāo)記,每一個樣本有一個特定的接頭,每個接頭里面有一段特定的序列,這段特定的序列,我們就稱為Index/Barcode(特定序列標(biāo)記了特定樣本的來源)。
要讀Index序列,先用堿把上面這跟測完‘Read 1’的序列上面的DNA鏈解鏈掉,加入中性液,再加入‘Read 2’的測序引物。Read 2的結(jié)合位點就在Index序列的旁邊,接下來進(jìn)行第二輪測序。一般是讀6-8個堿基。讀完以后就可以知道這某一個具體的一段DNA,它來自原始的哪個樣本。
這是Illumina的最核心的另外一個技術(shù) 。雙端測序就是一根DNA鏈,除了從正向讀一遍,還可以從DNA的負(fù)向再讀一遍。這樣子就把Illumina測序的有效長度加了一倍。
這個倒鏈的過程,是先讓DNA合成,得到互補(bǔ)鏈。之后用化學(xué)試劑切斷模版鏈根部,加入堿溶液洗掉,接下來就進(jìn)行第2端的測序。原理和第1端是一樣的。
最重要的是,我們可以理解,一個點經(jīng)過幾百個循環(huán)得到一條鏈幾百個堿基的信息。但實際上這個芯片可以有上億個點,也就是上億個cluster(簇)。上億個鏈同時在合成,因此每一個循環(huán)都可以讀出上億個序列,這就得到了很大的一個測序數(shù)據(jù)量。
reads越長,出錯的越多,真實信號會越來越弱。因此illumiina的測序讀長被限制在300bp以內(nèi)。