亚洲男人AV天堂一区二区综合

  • <li id="m0ymi"><button id="m0ymi"></button></li>
  • <table id="m0ymi"></table>
  • 深度學習揭示免疫療法免疫成分中的預測序列概念

    【字體: 時間:2022年09月20日 來源:AAAS

    編輯推薦:

      T細胞受體(TCR)測序已被用來表征癌癥的免疫反應。然而,大多數的分析都局限于定量分析,如克隆性,而這些定量測量沒有利用互補性決定區3(CDR3)序列。

      

    摘要

    T細胞受體(TCR)測序已被用來表征癌癥的免疫反應。然而,大多數的分析都局限于定量分析,如克隆性,而這些定量測量沒有利用互補性決定區3(CDR3)序列。我們使用DeepTCR,一個深度學習算法的框架,來揭示序列概念,這些概念可以預測免疫治療的反應。我們證明DeepTCR可以預測反應,并使用該模型推斷預測信號的抗原特異性及其在治療過程中的獨特動態。無反應的預測性特征與預測識別腫瘤特異性抗原的tcr的高頻率相關,并且這些腫瘤特異性tcr在無應答者和應答者的治療中經歷更高程度的動態變化。這些結果與一個生物學模型是一致的,即無應答者的特征是腫瘤特異性T細胞在治療過程中發生轉化,這可能是因為這些T細胞在無應答者中的功能失調狀態。

    簡介

    癌癥檢查點抑制[α-程序性死亡1(α-PD1)和α-細胞毒性T淋巴細胞相關蛋白4(α-CTLA4)]的出現改變了腫瘤學家如何理解和治療晚期和侵襲性疾病(1).檢查點抑制或阻斷的初步試驗證明了在晚期轉移癌中獲得持久的臨床益處的可能性(46);然而,盡管免疫治療有著巨大的前景,但大多數患者對這種治療方式仍然沒有反應(6).因此,發展預測性生物標志物以選擇哪些患者可能從免疫治療中受益最大,并進一步加深我們對檢查點阻斷在癌癥中的成功應用的理解,已經引起了極大的關注(720).

    一個很有希望的研究領域是通過T細胞受體測序(TCR-seq)對T細胞全序列進行廣泛分析來檢測T細胞的反應,其中TCR序列是通過下一代測序獲得的,允許對反應的抗原決定因素進行表征(12,13,2123).然而,這一領域的絕大多數工作僅限于描述TCR曲目的多樣性(無論是克隆型還是結構層面)(2432).以前的工作已經證明某些序列概念可以預測腫瘤類型(33)但是還沒有被用于預測免疫治療的反應,因此,我們想詢問是否有序列概念(即模體)可以預測免疫治療的反應。

    我們使用來自DeepTCR(一組先前描述的深度學習算法)的指令集分類器來搜索序列概念,這些概念可以預測免疫治療的反應(22,23).我們將DeepTCR應用于一個臨床試驗數據集(CheckMate-038),其中接受α-PD1或α-PD1+α-CTLA4的不能手術的黑色素瘤患者在開始治療之前和之后進行測序,其中根據RECIST v1.1標準,基本真實標記與放射反應相對應。這一分析不僅代表了DeepTCR作為臨床免疫治療環境中的治療前生物標志物的價值,而且重新分析了Anagnostou最近發表的TCR-seq數據等等。(21)但是,我們進一步使用這種預測模型來揭示免疫治療影響下反應的抗原決定因素及其動力學的生物學見解。

    結果

    用人白細胞抗原擴展DeepTCR的全庫分類器

    我們首先擴展了我們先前描述的多實例學習(MIL)庫分類器,允許將人類白細胞抗原(HLA)納入TCR的特征化,以提供一個聯合TCR-HLA抗原潛空間的表示(圖1).這在分析人類來源的數據時尤其重要,因為個體通常具有不同的HLA背景,并且他們的腫瘤具有獨特的突變相關新抗原和腫瘤相關抗原;因此,如果從具有不同HLA背景的患者中進行比較,結構上同源的tcr可能無法識別相同的腫瘤抗原。通過將HLA納入TCR的特征化,我們通過觀察到的HLA背景提供TCR的上下文,從而允許具有不同HLA背景的個體/患者之間的直接比較。

    圖1.HLA擴展,MIL監督的TCR指令集模型。

    我們擴展了先前的工作,修改了TCR特征塊,以合并HLA背景,在該背景下觀察到了給定的TCR集合。樣本/個體的HLA背景以多熱點表示提供給神經網絡,在學習的連續嵌入層中重新表示,并連接到TCR的連續學習表示。如前所述,我們實現了一個多頭注意機制,以便對示例中的概念進行序列分配。模型中概念的數量是一個超參數,用戶可以根據劇目中預期的異構性來改變它。值得注意的是,將一個序列分配給一個概念是通過一個自適應激活函數來完成的,該函數輸出一個介于0和1之間的值,從而允許網絡關注與學習任務相關的序列。當對一個指令庫中的所有單元取這些賦值的平均值時,這將在神經網絡中產生一個值,該值直接對應于由所學概念描述的指令集的比例。這些比例的概念在劇目然后被發送到最后的傳統分類層。改編自Sidhom等等。(22)約翰霍普金斯大學醫學院應用醫學藝術系。抗原提呈細胞;主要組織相容性復合體。

    擴展以獲取更多在查看器中打開

    DeepTCR的指令集分類器可以預測反應

    我們首先將DeepTCR應用于CheckMate-038臨床試驗(圖S1)患者隊列中的治療前腫瘤標本。在CheckMate-038(第2部分至第4部分)臨床試驗中,收集治療前腫瘤活檢,并對43例患者進行TCR-seq檢查,這些患者接受α-PD1單藥治療(9例患者)或α-PD1+α-CTLA聯合治療(34例患者),然后通過RECIST v1.1進行放射治療反應。完全應答者和部分應答者(CRPR)被表示為對治療的應答者,而穩定疾病和進行性疾。⊿DPD)被表示為對治療無反應。我們觀察到,當應用DeepTCR預測免疫治療反應時,TCR與HLA的聯合表現優于單獨使用TCR序列或HLA基因型信息的DeepTCR模型[曲線下面積(AUCs);TCR=0.77,HLA=0.75,TCR+HLA=0.86,隨機排列檢驗=0.515;圖2A,在圖S2中按治療隊列分層。由此得出的DeepTCR的TCR+HLA模型對治療反應的可能性的預測在這組患者中也有顯著的分層無進展生存率(PFS)(圖2B).與TCR或HLA模型相比,TCR+HLA模型在交叉驗證評估過程中表現出較少的可變性(圖S3),并且似乎HLA基因型的添加使模型能夠從TCR序列數據中學習不同的信息(圖S4)。我們還發現在這個隊列中,DeepTCR-TCR+HLA模型與傳統的生物標志物相比,后者在免疫治療治療的患者中表現出分層反應[AUCs;程序性死亡配體1(PD-L1;免疫組織化學腫瘤比例評分)=0.693,總突變負荷(TMB;基于外顯子組)=0.772,TCR克隆性=0.642,T細胞總數=0.825;圖S5]。此外,雖然在總T細胞計數(T細胞腫瘤浸潤程度的替代物)和深度TCR中觀察到類似的表現(基于AUC),但這些預測因子獨立于多元logistic回歸分析,因此似乎代表了補充信息。為了進一步驗證我們的發現,我們收集了兩組獨立的皮膚癌患者(表示為yost和sade),他們接受檢查點封閉治療,在開始治療前接受了整體TCR-seq或單細胞TCR-seq檢查(34,35).在這兩組患者隊列中,當對CheckMate-038數據集進行Monte Carlo(MC)交叉驗證的100個模型時,我們發現這兩個隊列在開始治療前都有不同程度的反應預測特征[AUCs:yost=0.82](n=11),sade=0.61(n=19),且yost+sade=0.71(n=30)],進一步驗證對檢查點封鎖的響應的預測簽名(圖2C).

    圖2人類治療前腫瘤浸潤淋巴細胞的全譜分類。

    (A)建立受試者操作特征(ROC)曲線,以預測免疫治療的反應(完全反應和部分反應),并將TCR、HLA或TCR+HLA信息提供給監督儲備分類器[100個蒙特卡羅(MC)模擬,序列大小為37,測試大小為6]。進行引導分析(5000次迭代)以構建AUC值的置信區間(CI)并評估模型性能的差異,其中每個樣本的AUC在上述三個模型中以成對的方式進行比較。如果bootstrap差異不超過0(***,99.9%CI),則兩個表現出同等性能的模型的零假設被拒絕。NS,不重要。(B)使用該隊列中的中位預測值(取MC測試集和每個樣本的平均值),將TCR+HLA模型產生的反應可能性分為“高”和“低”,并顯示了PFS、對數秩的Kaplan-Meier曲線P=0.005(C)使用CheckMate-038數據擬合的程序集模型,對兩組先前發表的接受檢查點阻斷治療的皮膚癌患者進行集合推理。通過ROC曲線顯示獨立和組合隊列的性能特征[yost(n=11),薩德(n=19)和yost+sade(n=30)]。如前所述,進行引導分析以構建AUC值周圍的CI。

    擴展以獲取更多在查看器中打開

    無監督表征揭示了預測性抗原反應的本質

    為了描述TCR序列在治療有反應或無反應的患者中的分布,我們訓練了一個變分自動編碼器(VAE),這是DeepTCR框架的另一種模型部分(22),在所有數據上獲得無監督特征化,以可視化[通過統一流形近似和投影(UMAP)]無響應者和響應者的分布(圖3A;每個樣本分布如圖S6所示)。當觀察所有數據時,總體分布沒有差異,但我們發現當將TCR序列過濾到頂部和底部10%的預測序列時(圖3B),我們能夠看到反應者和無反應者之間的TCR譜的差異(圖3C),說明了MIL算法“去噪”TCR指令集的功能。我們注意到,不僅應答者和無應答者的分布是多模態的,而且這些多模態在患者之間是共享的(圖3D).

    圖3。預測簽名的無監督表示。

    (A)為了對CheckMate-038臨床試驗中有反應者和無應答者的T細胞反應提供描述性的理解,我們試圖描述TCR譜在這組患者中的分布特征。來自CheckMate-038的數據被用于以樣本和類無關的方式對所有序列數據(包括TCR+HLA信息)的VAE進行訓練。通過無監督VAE特征化的UMAP(每個樣本分布如圖S6所示)可視化響應者和非響應者指令集的分布。(B)為了可視化高預測性TCR序列的分布,在獨立測試集中對TCR進行每次MC模擬后,評估每個序列的預測值,并分配給定TCR具有響應者簽名的概率。在100個MC模擬中,隊列中的每個序列都分配了多個預測值,這些預測值在所有模擬中取平均值,作為該患者隊列中每個序列的一致預測值。(C)在整個隊列和每個樣本的基礎上,選擇應答者和無應答者中前10%的序列并可視化(D)其中,邊緣顏色表示樣本的基本真實值標簽(無反應,紅色;響應者,藍色)和通過MC模擬獲得的平均預測可能性,以響應每個患者分布上方顯示的治療。

    擴展以獲取更多在查看器中打開

    在治療過程中,預測信號持續存在

    接下來,我們想詢問這種反應的預測性特征(發送前)是否持續存在于治療后(發送后)的TCR庫中。為此,我們將根據治療前數據訓練的模型(TCR、HLA和TCR+HLA)應用于35對治療后樣本,并檢測治療前和治療后的受試者操作特征(ROC)曲線和AUCs(圖4A).當這樣做的時候,結果顯示治療前和治療后的樣本之間的表現相當,這表明即使在開始免疫治療數周后,預測信號仍然存在。此外,我們注意到治療前和治療后的預測值之間有很高的相關性(圖4B)提示在治療過程中維持治療前反應相關的儲備。當比較35對治療前和治療后的清單時,在樣本水平上檢查每個類別的前10%預測序列(即CRPR和SDPD)(圖4,C和E)或整個隊列水平(圖4、D和F),我們在治療中顯示了保守的預測性抗原反應。綜上所述,這些發現表明,抗原反應不僅在對檢查點阻斷有反應者和無反應者之間不同,而且每一組患者都包含一組T細胞反應,這些反應可能識別出一大類結構相關的抗原,并且這些預測概念在治療期間持續存在。

    圖4治療前和治療后的TCR記錄。

    (A)對35對治療后TCR譜進行訓練的三種模型分別應用于治療前和治療后的TCR。然后通過可視化ROC曲線和啟動AUC來比較治療前后的預測特征。(B)對于每對治療前/治療后的曲目,比較所有訓練模型治療前和治療后的曲目水平預測。為了可視化預測序列的分布,在所有配對樣本中,35個成對的前/后劇目中,前10%的預測序列被可視化(CE)在整個隊列中(DF).

    在查看器中打開

    無反應的預測性特征與腫瘤特異性tcr相關

    為了進一步描述抗原反應的抗原特異性,我們首先創建了殘留敏感標識,如最初的DeepTCR出版物所述(22)應答者(CRPR)和無應答者(SDPD)前50名最具預測性的TCR(圖5A).我們注意到,最具預測性的殘基定位在序列的中心部分,這表明預測信號確實與TCR的抗原特異性有關。然后我們使用Oliveira先前發表的黑色素瘤數據集等等。(36)作者將TCR序列數據與已知特異性(即病毒與新抗原對腫瘤相關抗原)進行配對,以及獲得序列的個體的已知HLA背景。我們將這些tcr通過之前訓練過的DeepTCR指令庫分類器來分配每個序列的響應和無響應的可能性。我們注意到,當觀察不同類型抗原的可能性分布時,病毒特異性TCR[愛潑斯坦-巴爾病毒(EBV)、流感(流感)和黃熱。╕F)]比腫瘤特異性TCR[T細胞識別的NeoAg和黑色素瘤抗原(MART-1)]有更高的反應可能性(圖5、B和C).為了進一步驗證這些發現,我們從McPas TCR數據庫中提取TCR(37)交叉精確序列與CheckMate-038隊列中發現的tcr相匹配,然后觀察這些交叉匹配tcr的相應反應可能性。我們再次注意到奧利維拉的數據集也有類似的發現等等。(36)病毒特異性tcr(EBV、巨細胞病毒、流感和YF)比腫瘤特異性tcr(MART-1)有更高的反應可能性(圖5D).當在無監督的TCR序列空間中觀察這些病毒特異性TCR和MART-1特異性TCR時,我們還發現病毒特異性TCR在應答者特異性區域更為豐富,而MART-1特異性TCR在UMAP的非應答區更為豐富(圖5E).

    圖5預測性TCR的特異性和動態性。

    (A)針對應答者(CRPR)和無應答者(SDPD)的前50個最具預測性的TCR序列創建了殘留敏感性標識。(B)TCR是從Oliveria之前的出版物中收集的等等。(36)在表型(來自單細胞RNA測序)UMAP空間中顯示,并通過抗原特異性(腫瘤特異性與病毒特異性tcr)以紅色突出顯示,以及由經過訓練的DeepTCR庫分類器確定的相應反應可能性。每類抗原的反應分布的可能性(C)奧利維亞等等。(36)數據集和(D)McPas TCR數據庫(橙色,腫瘤特異性;灰色,病毒特異性)。(E)來自McPas-TCR數據庫的病毒特異性與MART-1特異性TCR在CheckMate-038隊列的預測TCR中顯示在無監督的TCR序列空間中。顏色對應于序列空間中該點的核密度估計。(F)在治療前和治療后的tcr中,克隆型特異性頻率變化顯示為病毒特異性與腫瘤特異性的關系。每組成對盒形圖代表10%的概率范圍(即,第一對盒形圖代表0-10%的腫瘤特異性序列)。每個方塊圖的平均值用綠色三角形表示。(G)每個概率箱中序列頻率的變化聚集在每個患者身上,并顯示為病毒特異性與腫瘤特異性的可能性函數,顯示每個患者內給定序列的頻率凈變化。

    擴展以獲取更多在查看器中打開

    腫瘤特異性反應在無反應者中表現出更多的動態變化

    最后,我們想了解這些預測tcr是否有任何獨特的動態變化。為此,我們首先在克隆型水平上檢測了治療前和治療樣本中TCR序列頻率的變化,作為腫瘤特異性與病毒特異性的函數(圖5F).我們注意到,雖然預測的病毒特異性TCR在無應答者和應答者之間幾乎沒有變化,在治療前樣本中發現的腫瘤特異性TCR在無應答者和應答者中的頻率顯著降低,而在治療后樣本中發現的腫瘤特異性TCR在無應答者和應答者中的頻率顯著增加。這一發現表明,在無應答者和應答者中,腫瘤特異性克隆與病毒特異性克隆的轉換速度更快。當匯總每個患者的頻率變化時,我們進一步觀察到相同的發現,即無反應者的腫瘤特異性克隆的更替率高于有反應者(圖5G)提示無反應者腫瘤特異性反應無效,腫瘤特異性tcr在這些患者中的轉換率較高。

    討論

    在這項工作中,我們試圖了解臨床環境下免疫治療反應的T細胞序列決定因素及其潛在的抗原特異性。雖然在這一領域已有研究了解TCR譜的數量方面(即多樣性、豐度等),但尚需研究TCR譜集中可能預測免疫治療反應的序列基序/概念。在這項工作中,我們使用并擴展了先前描述的一組TCR譜分析的深度學習算法,以創建不僅預測臨床反應的模型,還允許我們理解和提出一個生物學模型,解釋應答者/無應答者中TCR譜的差異。

    在癌癥免疫學領域,許多先前的工作試圖了解治療反應的抗原決定因素,通常從提出的表位/抗原的角度來解決這個問題。我們建立了計算管道來獲取整個外顯子組測序(WES)數據并預測表位(79,11,12,38).然而,由于從突變到免疫相關表位(即表達、蛋白質體裂解、主要組織相容性復合物結合和T細胞識別)需要許多連續步驟/算法,這些管道的準確性受到影響(3943).直接詢問TCR序列/序列的好處是,這是對免疫反應中抗原特異性反應的直接測量。然而,目前的障礙是了解TCR序列中編碼的抗原信息,除了對TCR克隆進行直接的經驗驗證外,還沒有高通量、高效的方法來檢測TCR序列的抗原特異性。因此,在機器學習領域有一項努力,試圖從TCR序列中提取這種抗原信息,包括DeepTCR(在本工作中使用的)等方法(22,23,4450).盡管這一領域仍處于起步階段,隨著越來越多的數據來訓練這些模型,它們有可能徹底改變我們直接從TCR全譜中理解免疫反應抗原特異性的方式,從而避免試圖預測相關表位的高度可變和不準確的預測方法。在這項工作中,我們展示了諸如DeepTCR這樣的方法在未來將如何被用來不僅創造可能的癌癥預測生物標志物,而且從TCR庫中提取有意義的生物學見解。

    在本研究的第一部分,我們首先擴展我們先前的工作,將HLA整合到TCR序列的表示中。雖然TCR序列可以被認為包含了理解抗原特異性所需的信息,但它實際上包含了HLA背景下的抗原/表位信息。鑒于人類群體中HLA等位基因的高度異質性,不能保證TCR序列對不同個體的同一表位/抗原產生反應。因此,我們創建了一種方法來創建TCR序列和HLA背景的聯合表示。這種聯合表達則成為一種更完整和可靠的表位測量方法,并允許直接比較HLA不匹配個體之間的TCR庫。將此方法應用于反應預測時,我們發現結合TCR序列信息和HLA背景確實可以提高模型的預測能力。

    雖然該模型的預測能力是我們方法的一個關鍵優勢,因為我們能夠將TCR信息的總和聚合到一個完整的集合中,以預測有關治療反應的相關信息,大部分的工作都集中在模型的可解釋性上,希望能揭示之前未被認可的生物學觀點。我們首先使用一種完全無監督的TCR序列表示方法VAE來描述和可視化響應的預測特征。當我們這樣做時,我們發現我們的監督MIL模型確實從TCR曲目的背景“噪聲”中提取了相關的預測特征。在使用無監督方法的正交驗證方法時,這給了我們進一步的證據,證明我們的監督模型并沒有對數據過度擬合,當觀察每個患者中預測序列的分布時,我們能夠觀察到應答者/無應答者中保守的TCR序列特征在多個患者中共享。這使我們不得不提出一個不可避免的問題:這些預測性TCR序列的特異性是什么。通過使用兩個先前發表的具有已知TCR與特異性關系的數據集,我們發現應答者的預測信號豐富,類似于病毒反應,而無應答者則富含類似腫瘤特異性反應的信號。雖然最初出乎意料,但我們推斷病毒信號代表腫瘤內的背景T細胞反應[正如其他研究所證實的那樣](36)]腫瘤特異性T細胞在無應答者中的聚集與本底病毒信號有關。根據先前發表的數據集,TCR序列不僅與抗原特異性有關,而且與表型相關,我們推斷腫瘤特異性T細胞的聚集代表了可能已經功能失調的終末分化效應T細胞,因此,它們在無應答者中的積累。

    當研究這些抗原特異性反應在免疫治療開始前后的動態變化時,雖然抗原特異性信號在治療中沒有改變,但我們驚訝地發現,在無反應的患者中,腫瘤特異性T細胞的轉化率更高。綜合所有這些觀察結果,我們提出了一個免疫治療動力學和抗原特異性特征的生物學模型,以及這些特征在治療應答者和非應答者之間的差異(圖6).值得注意的是,無應答者的特征是功能失調的腫瘤特異性T細胞在接受免疫治療時會經歷更高水平的轉換,這表明T細胞對腫瘤的持續反應是徒勞的。相反,應答者在腫瘤內維持現有的腫瘤特異性反應,其功能通過免疫治療得以挽救,因此,腫瘤中已經存在的T細胞能夠有效地發揮其抗腫瘤活性。

    圖6腫瘤特異性T細胞在免疫治療中的動態變化。

    在治療前,對免疫治療沒有反應的人已經積累了腫瘤特異性功能失調的效應T細胞。免疫治療開始后,與有反應者相比,無應答者腫瘤特異性T細胞的更新率更高。創建時使用BioRender.com網站.

    在查看器中打開

    最后,這個生物學模型與之前在該領域的轉錄組學研究中已經報道的結果是一致的。在奧利維拉的研究中等等。(36),無反應的患者的特征是高水平的腫瘤反應性T細胞的積聚,而在無反應的黑色素瘤患者中,T細胞水平顯著升高。這種特異性,即使在高頻率下,也不能產生有效的抗腫瘤反應,因為在腫瘤微環境中通過單細胞RNA測量的高水平衰竭(36).與此觀點一致,對檢查點阻斷有反應的黑色素瘤患者,其腫瘤標本中假定的病毒特異性T細胞比例較高,而無反應的患者則以累垮的腫瘤浸潤淋巴細胞為特征(35,36).

    雖然這項研究的發現證明了一種將可解釋機器學習應用于TCR譜分析的方法和人們可以欣賞的生物學見解,但這項工作肯定存在局限性。本研究最大的局限性是本研究中使用的訓練/驗證隊列規模較小。深度學習模型因其過度適應數據的能力而臭名昭著,在訓練這些模型時需要考慮很多因素,以便它們不會過度適應虛假或不相關的信息。為了解決這個主要的限制,我們確保在交叉驗證期間只評估測試集中模型的性能。此外,通過用VAE(一種完全無監督的方法)來證實這種預測序列特征的發現,我們能夠提供進一步的證據,證明我們的監督模型并沒有對數據過度擬合。最后,我們驗證了CheckMate-038隊列在接受檢查點阻斷治療的另外兩個臨床隊列中的預測特征,進一步驗證了觀察到的發現。

    綜合起來,這些發現突出了在深度學習中的實用性,以確定TCR譜的關鍵特異性特征及其在免疫治療影響下的動態以及它們與臨床反應的關系。在這一領域的進一步工作可能會利用這些描述的方法來開發生物標記物,并有助于理解和開發在精確腫瘤學時代更好的靶向治療。

    方法

    CheckMate-038實驗模型和參與者詳細信息

    CheckMate-038是一個多部門、多機構、機構審查委員會批準的前瞻性研究(CA209-038;NCT01621490)。第2-4部分的患者每2周接受一次nivolumab(3mg/kg)(n=21)或nivolumab(1mg/kg)+ipilimumab(3mg/kg),每3周×4次,然后每2周使用nivolumab(3mg/kg)(n=62),直至進展或最多2年。大約每8周進行一次放射治療反應評估,直到病情進展。通常在4周后,通過計算機斷層掃描證實病情進展。患者的腫瘤反應由RECIST v1.1定義。除非另有說明,否則對治療的反應表明總體反應最好。所有患者在開始治療前(第一次給藥前1-7天)對轉移灶進行活檢。將腫瘤組織分成福爾馬林固定、石蠟包埋(FFPE)或用RNA儲存(Ambion)進行后續RNA/DNA提取。在中心實驗室檢測腫瘤細胞表面的PD-L1表達(dako28-8抗體)。臨床試驗方案及其修正案得到了相關機構審查委員會的批準,并根據赫爾辛基宣言和國際會議關于良好臨床實踐的協調準則進行了研究。所有患者在進行任何研究程序前簽署書面知情同意書。

    CheckMate-038 TCR seq和HLA數據生成

    在開始治療前收集腫瘤活檢樣本,并將其儲存在rnater中。提取DNA并提交給適應性生物技術公司進行調查水平的TCRβ鏈測序,其中靶向擴增子庫通過多重聚合酶鏈反應靶向所有TCRβ鏈V/D/J基因片段,并使用Illumina HiSeq系統進行測序(51,52).以前由Anagnostou分析的單個TCR序列的數據等等。(21)包括V/D/J基因片段鑒定和CDR3-β序列,通過DeepTCR進行分析。腫瘤活檢DNA也被發送到WES(個人基因組診斷)以確定TMB,并使用OptiType推斷患者的HLA基因型(53).來自同意沉積的患者的數據將被提交到歐洲基因組表型檔案(21).

    數據管理

    TCR-seq文件作為原始tsv/csv格式文件從手稿中引用的各種來源收集。測序文件被解析,以獲取CDR3的氨基酸序列后刪除非生產性序列。將核苷酸序列不同但氨基酸序列相同的克隆聚集在一個氨基酸序列下,并對它們的讀數進行求和以確定它們的相對豐度。在解析代碼中,我們還指定忽略使用非國際統一的純化學和應用化學字母(*,X,O)的序列,并刪除長度大于40個氨基酸的序列。為了算法的目的,最大長度可以改變,但是我們選擇了40,因為我們不期望任何實數序列比這個長度長。

    訓練DeepTCR曲目分類器

    在開始治療前,為了確定腫瘤微環境TCR序列中反應的預測性特征,我們使用了DeepTCR(v2.1.6),一個揭示T細胞序列中序列概念的深度學習框架(22).我們對現有的軟件做了一個重大的改變,允許在TCR的表示中加入HLA信息。這是通過將觀察到的給定TCR的HLA背景表示為一個分類的multihot編碼變量作為神經網絡的輸入來實現的。該方法的所有其他方面與DeepTCR首次提出的原稿中所述的一樣。值得注意的是,我們使用TCR序列信息(CDR3-β和V/D/J)、HLA或TCR+HLA信息,在CheckMate-038數據上擬合指令集分類器,以證明不同類型的信息,每個輸入都有助于模型的預測能力。對于測試的每種類型的輸入,在MC交叉驗證期間使用相同的精確訓練/測試分割,以便在比較使用不同輸入數據訓練的模型時進行公平的比較。此外,由于CheckMate-038數據集的小性質,訓練必須以防止劇目分類器過度擬合的方式完成。因此,為了在這些數據集上訓練指令集分類器,我們使用了MC交叉驗證,其中在模型訓練期間使用了鉸鏈損失,這阻止了模型進一步將任何給定樣本的損失降低到定義的閾值以下。這種目標函數背后的思想是,一旦樣本預測足夠正確,就不鼓勵網絡進一步降低其損失,從而減少對訓練數據的過度擬合。一旦達到預定閾值,將停止具有該鉸鏈損失的模型訓練,并在保持MC交叉驗證的情況下,對該列車/測試分割的測試數據進行模型性能評估。然后我們使用了一種自舉方法,我們對MC預測進行了5000次抽樣,以近似AUC附近的置信區間。DeepTCR模型的所有超參數都可以在公共可用的GitHub存儲庫中找到,如下所示(數據和材料可用性)。

    驗證隊列

    TCR-seq數據是從兩個先前出版的手稿中收集的(34)還有莎德(35)分別由基底細胞/鱗狀細胞癌和黑色素瘤患者組成。yost數據集包括來自11名患者的樣本,這些患者的TCR序列可從治療前活檢中獲得,并可在immuneACCESS上獲得;sade數據集包括19名患者的樣本,這些患者的TCR序列可從治療前活檢獲得,并在原始出版材料中提供。這兩個隊列均由接受檢查點阻斷治療的患者組成,并通過RECIST標準對治療的臨床反應進行評估,其方式與CheckMate-038隊列中進行的方法相似。然后使用適合CheckMate-038隊列的DeepTCR指令庫分類器對這兩個獨立的臨床隊列中的患者進行指令庫級別的推斷,并通過ROC和AUC測量評估預測性能。

    通過VAE和UMAP進行無監督陳述

    為了提供所發現的預測特征的可解釋性,我們使用DeepTCR-VAE對CheckMate-038隊列中發現的所有tcr進行無監督降維。每個進入VAE的實例都由CDR3-β、V/D/J基因使用和TCR的HLA背景共同定義。使用VAE,這個輸入在通過UMAP(python包UMAP learn的默認設置)進一步簡化為二維之前被轉換成128維的潛在向量。為了可視化的目的,由于每個TCR都有一個與之相關的頻率,因此利用這些信息來構造二維直方圖,以可視化UMAP潛在空間中這些TCR的密度。

    后處理推理

    為了將模型從治療前隊列應用到治療后隊列,我們使用了一種方法來防止性能特征的過度膨脹,因為治療前和治療后的樣本高度相關(來自同一患者)。為了做到這一點,我們只對治療后的個體使用模型,這些模型沒有針對這些個體治療前的腫瘤進行訓練。換言之,當模型在前處理數據的給定分區上訓練,然后在前處理數據和配對測試集的后處理數據的另一個分區(測試集)上進行測試時。這種類型的交叉驗證阻止了模型對接受過訓練的患者做出預測,無論是對治療前還是治療后的樣本進行訓練。

    將預測模型與已知抗原特異性聯系起來

    為了檢驗應答/無應答預測信號的抗原特異性,我們收集了兩個先前發表的數據集,這些數據集對抗原/表位的CDR3序列進行了經驗驗證。由于我們的臨床隊列由黑色素瘤患者組成,我們首先使用一個黑色素瘤相關的數據集,其中作者建立了TCR序列、抗原特異性和基因表達表型之間的聯系(36).我們還使用McPas-TCR,一個包含TCR序列及其已知特異性的更大的數據集(37).黑色素瘤數據集(36),因為這個數據集有CDR3-β序列,V/D/J基因的使用情況,以及個體的HLA背景,所以我們能夠通過預先訓練的模型來對每個TCR進行評分。在我們對McPas TCR數據庫的分析中,為了最大限度地增加我們隊列患者和數據庫中發現的TCR的重疊,我們將臨床隊列中的TCR(具有預測可能性)與McPas TCR數據庫中僅在CDR3-β序列水平上的TCR進行交叉匹配,以將已知的抗原特異性TCR與其應答/無反應的可能性相匹配。

    作為反應可能性函數的克隆動力學

    在CheckMate-038隊列中,由于存在治療前和治療后兩組患者的活檢,我們希望根據反應預測模型提供的信息來詢問克隆動力學。為了做到這一點,我們將所有的TCR序列分為10個序列類別,這些序列代表了我們模型預測的病毒-腫瘤特異性TCR的光譜。然后我們進一步將這些序列分為應答者(CRPR)還是無應答者(SDPD)。然后我們觀察了它們在治療前或治療后的克隆動態。對于治療前活檢中出現的TCR序列,我們觀察了治療后相對于治療前頻率的頻率變化,對于治療后活檢中看到的TCR序列,我們觀察了治療前相對于治療后頻率的變化。為了進一步量化樣本/患者水平上TCR的動態,我們將每個患者的頻率變化沿著病毒到腫瘤的譜線聚集到每個患者身上,以輸出每個患者頻率的凈變化。

    統計檢驗與機器學習模型

    所有應用于數據的統計檢驗都是用scipy實現的。統計模塊。利用scikit-learn實現了經典的機器學習技術和性能指標。

    相關新聞
    生物通微信公眾號
    微信
    新浪微博
    • 搜索
    • 國際
    • 國內
    • 人物
    • 產業
    • 熱點
    • 科普
    • 急聘職位
    • 高薪職位

    知名企業招聘

    熱點排行

      今日動態 | 生物通商城 | 人才市場 | 核心刊物 | 特價專欄 | 儀器云展臺 | 免費試用 | 今日視角 | 新技術專欄 | 技術講座 | 技術期刊 | 會展中心 | 中國科學人 | 正牌代理商

      版權所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      聯系信箱:

      粵ICP備09063491號

      亚洲男人AV天堂一区二区综合
    • <li id="m0ymi"><button id="m0ymi"></button></li>
    • <table id="m0ymi"></table>