337p日本欧洲亚洲大胆裸体艺术,国产亚洲欧美精品手之手,精品国产一区二区三区不卡

西湖大學(xué)馬麗佳團(tuán)隊(duì)開發(fā)全新深度學(xué)習(xí)模型，精準(zhǔn)預(yù)測(cè)SpCas9/gRNA活性及特異性

來(lái)源：生物世界　2023-05-25 19:07:46

CRISPR基因編輯技術(shù)自2013年被科學(xué)家首次證明可以在哺乳動(dòng)物細(xì)胞內(nèi)實(shí)現(xiàn)高效的基因組編輯以來(lái)，正在徹底改變生物醫(yī)學(xué)基礎(chǔ)研究和臨床研究領(lǐng)域。越來(lái)越多的研究者已經(jīng)在包括開發(fā)新型基因編輯工具酶或者優(yōu)化向?qū)NA（gRNA）的設(shè)計(jì)方面進(jìn)行了很多嘗試，希望可以借此提高CRISPR的性能。

(資料圖片僅供參考)

利用合成gRNA-靶序列的高通量文庫(kù)允許直接在細(xì)胞環(huán)境下中便捷和高通量地收集gRNA活性數(shù)據(jù)，由此建立的計(jì)算模型來(lái)預(yù)測(cè)gRNA的活性比較可靠。在以往的研究中，約10000至50000條合成的gRNA-靶序列被用于量化gRNA的靶向效率、特異性或修復(fù)結(jié)果。

然而，人類基因組有6108個(gè)具有NGG PAM的潛在gRNA，這導(dǎo)致早期研究中采樣的gRNA覆蓋率僅為0.002%-0.009%。在這個(gè)采樣范圍內(nèi)，已有的計(jì)算工具預(yù)測(cè)的gRNA活性和用于建模的實(shí)測(cè)gRNA活性相關(guān)性約為0.8（Spearman相關(guān)性），還有很大上升空間。并且截至目前，還沒有一個(gè)從多個(gè)維度預(yù)測(cè)gRNA活性（如，gRNA切割活性、gRNA脫靶活性、gRNA切割后基因組修復(fù)的圖譜）的綜合工具。

近日，西湖大學(xué)生命科學(xué)學(xué)院馬麗佳研究員團(tuán)隊(duì)在Cell Discovery期刊發(fā)表了題為：Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities的研究論文。

該論文介紹了團(tuán)隊(duì)開發(fā)的一種基于全新策略構(gòu)建的深度學(xué)習(xí)模型，能有效預(yù)測(cè)CRISPR多維gRNA性能。

首先，研究人員將74萬(wàn)條gRNA（740k文庫(kù)）及gRNA靶點(diǎn)序列合成在一條oligo上（每個(gè)gRNA靶點(diǎn)序列包括20-nt上游基因組序列、20-nt靶標(biāo)序列、3-nt PAM序列和20-nt下游基因組序列），該文庫(kù)除了團(tuán)隊(duì)設(shè)計(jì)的gRNA之外，還包含多個(gè)已發(fā)表的CRISPR KO screening（通過(guò)CRISPR系統(tǒng)構(gòu)建基因組文庫(kù)進(jìn)行高通量基因敲除篩選）文庫(kù)，包括Brunello、GecKOv2、Sabatini、TorontoKoV3和YusaKoV1。740k文庫(kù)占人類基因組中所有具有NGG-PAM的gRNA數(shù)量的約0.16%（遠(yuǎn)高于以往研究中0.002%~0.009%的覆蓋率）。隨后通過(guò)慢病毒轉(zhuǎn)導(dǎo)入穩(wěn)定表達(dá)SpCas9的人體細(xì)胞系內(nèi)，對(duì)合成的gRNA靶點(diǎn)序列上下游設(shè)計(jì)引物PCR進(jìn)行深度測(cè)序即可實(shí)現(xiàn)高通量地檢測(cè)gRNA的活性，同時(shí)還可評(píng)估對(duì)應(yīng)gRNA切割基因組后，基因組的修復(fù)圖譜（圖1）。

圖1：高通量檢測(cè)gRNA體內(nèi)活性策略的流程圖

為了開發(fā)gRNA活性預(yù)測(cè)模型，研究人員首先比較了九種機(jī)器學(xué)習(xí)算法，包括七種傳統(tǒng)算法和兩種基于深度學(xué)習(xí)的算法，結(jié)果發(fā)現(xiàn)RNN是在所有測(cè)試算法中性能最好，實(shí)測(cè)的gRNA效率和預(yù)測(cè)效率之間的Spearman相關(guān)系數(shù)在0.875到0.911之間。值得注意的是，相比這項(xiàng)研究中使用了74萬(wàn)條gRNA，以往的研究只用了1萬(wàn)至5萬(wàn)條gRNA序列的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)模型構(gòu)建。

那么，在數(shù)據(jù)量和模型性能之間，什么數(shù)據(jù)量是生物學(xué)實(shí)驗(yàn)投入和模型性能獲益之間的最佳值呢？

帶著這個(gè)疑問，研究團(tuán)隊(duì)又將740k文庫(kù)分為8個(gè)子庫(kù)，分別疊加子文庫(kù)行深度模型構(gòu)建，利用十折交叉驗(yàn)證進(jìn)行評(píng)估，最終建立了8組模型，結(jié)果表明隨著文庫(kù)大小的增加，8組模型的預(yù)測(cè)性能Spearman相關(guān)系數(shù)中位數(shù)從0.810逐漸提高到0.898。在包含超過(guò)220k個(gè)gRNA后，模型性能趨于平穩(wěn)。本研究給出了gRNA數(shù)據(jù)規(guī)模對(duì)提升模型性能的重要參考，對(duì)后續(xù)類似工作如何設(shè)計(jì)實(shí)驗(yàn)具有重要的指導(dǎo)意義。隨著一系列建模參數(shù)的測(cè)試，研究人員最終確定將63bp的序列（23bp靶序列和上游、下游各20bp）作為RNN模型的輸入序列，并將其訓(xùn)練得到的深度學(xué)習(xí)模型命名為“AIdit_ON”（圖2）。

圖2：建立預(yù)測(cè)gRNA活性的AIdit_ON模型的流程圖

為了進(jìn)一步評(píng)估AIdit_ON模型在不同細(xì)胞類型中的泛化性能，研究人員基于多個(gè)公開可用的內(nèi)源數(shù)據(jù)集，比較了AIdit_ON和11個(gè)已發(fā)表的計(jì)算工具，結(jié)果顯示AIdit_ON模型在所有公共數(shù)據(jù)集中的表現(xiàn)要優(yōu)于所有其他模型（圖3）。同樣地，對(duì)于本研究產(chǎn)出的不同細(xì)胞系內(nèi)源的gRNA活性數(shù)據(jù)（293T n=78；K562 n=75；H1 n=71），AIdit_ON模型的表現(xiàn)也優(yōu)于其他模型（圖3）。

圖3：不同數(shù)據(jù)集的indel頻率和12個(gè)模型預(yù)測(cè)效率之間的Spearman相關(guān)系數(shù)的熱圖

此外，K562和Jurkat細(xì)胞中740k文庫(kù)的數(shù)據(jù)集使研究人員能夠進(jìn)一步檢測(cè)這兩種細(xì)胞類型中DSB（DNA雙鏈斷裂）誘導(dǎo)的基因組修復(fù)結(jié)果。在仔細(xì)分析Jurkat和K562細(xì)胞的DSB修復(fù)圖譜時(shí)候，研究人員有了意外的發(fā)現(xiàn)。在K562中，超過(guò)65%的SpCas9/gRNA誘導(dǎo)的DSBs被修復(fù)為缺失類型（Deletion），這與以往研究的大多數(shù)細(xì)胞類型中發(fā)現(xiàn)的現(xiàn)象一致。相反，插入（Insertion）在Jurkat細(xì)胞中占主導(dǎo)地位（大于60%）（圖4）。研究人員大膽假設(shè)，Jurkat細(xì)胞的一種獨(dú)特特性可能是導(dǎo)致Insertion主導(dǎo)修復(fù)結(jié)果的原因。經(jīng)過(guò)驗(yàn)證，研究人員證實(shí)了他們的猜想，他們找到了一個(gè)在Jurkat特異性高表達(dá)的基因DNTT，該基因是控制Jurkat中DSB修復(fù)的主導(dǎo)基因。敲除Jurkat中的DNTT會(huì)改變其修復(fù)結(jié)果，使其與K562細(xì)胞的修復(fù)結(jié)果更相似。相反，在K562細(xì)胞中過(guò)表達(dá)DNTT時(shí)，Insertion成為最主要的DSB修復(fù)圖譜。這些數(shù)據(jù)表明，由SpCas9/gRNA介導(dǎo)的DSB誘導(dǎo)的修復(fù)結(jié)果是DNTT依賴性的。

為構(gòu)建精準(zhǔn)預(yù)測(cè)DSB修復(fù)圖譜模型，研究人員首先為每個(gè)修復(fù)類別訓(xùn)練了一個(gè)單獨(dú)的XGBoost模型，這些模型的輸出結(jié)合序列特征和微同源特征成為最終模型訓(xùn)練的特征。在K562數(shù)據(jù)上訓(xùn)練的模型被命名為AIdit_DSB_K562，在Jurkat數(shù)據(jù)上訓(xùn)練過(guò)的模型被稱為AIdit_DSB_Jurkat。為了評(píng)估模型的泛化性能，研究人員比較了已公開發(fā)表的預(yù)測(cè)模型ForeCasT和Lindel，在所有非Jurkat細(xì)胞系的測(cè)試數(shù)據(jù)集中，AIdit_DSB_K562模型的表現(xiàn)優(yōu)于Lindel和ForeCasT模型?；趶牟煌凳占钠渌矓?shù)據(jù)集的結(jié)果，包括REP1、CHO、E14TG2A和HAP1，也證明了AIdit_DSB_K562模型的優(yōu)越性能。AIdit_DSB_Jurkat對(duì)非Jurkat數(shù)據(jù)的預(yù)測(cè)效力低，但在Jurkat測(cè)試數(shù)據(jù)集中實(shí)現(xiàn)了高精準(zhǔn)的預(yù)測(cè)。根據(jù)DSB修復(fù)的DNTT依賴性，后續(xù)研究人員可以用DNTT的表達(dá)量來(lái)指導(dǎo)模型選擇和預(yù)測(cè)不同細(xì)胞類型特異的SpCas9/gRNA DSB修復(fù)圖譜。這個(gè)重要現(xiàn)象的發(fā)現(xiàn)，解釋了有些情況下模型預(yù)測(cè)性能無(wú)法在不同細(xì)胞類型中實(shí)現(xiàn)泛化的原因，其實(shí)是背后的基本生物學(xué)原理決定的。這也提示生物學(xué)數(shù)據(jù)指導(dǎo)下的AI模型，既需要產(chǎn)生足夠的、與問題直接相關(guān)的數(shù)據(jù)，也需要考量有生物學(xué)意義的參數(shù)。

圖4：SpCas9誘導(dǎo)的DSB修復(fù)類型在Jurkat WT, Jurkat DNTT-KO，K562 WT和K562 DNTT-OE細(xì)胞中的分布。

最后，研究人員應(yīng)用了類似的策略來(lái)衡量SpCas9/gRNA在非匹配靶序列上的脫靶活性。研究人員設(shè)計(jì)了一個(gè)包含180萬(wàn)條gRNA脫靶序列的文庫(kù)（180k），并基于該文庫(kù)產(chǎn)生的高通量測(cè)序數(shù)據(jù)構(gòu)建了預(yù)測(cè)SpCas9/gRNA脫靶活性的機(jī)器學(xué)習(xí)模型，即AIdit_OFF。結(jié)果表明，在多個(gè)GUIDE-seq測(cè)試數(shù)據(jù)集上相對(duì)于應(yīng)用較廣的CFD模型，AIdit_OFF無(wú)論特異性還是召回率表現(xiàn)的都更好，且將預(yù)測(cè)gRNA脫靶位點(diǎn)的精準(zhǔn)率平均提高了2.6倍。

推薦DIY文章