scTEM-seq: analisi unicellulare della metilazione degli elementi trasponibili per collegare l’eterogeneità epigenetica globale con i programmi trascrizionali

Linee cellulari e campioni di pazienti

Le cellule KG1a (ATCC, catalogo #CCL-246.1) sono state coltivate in Iscove’s Modified Dulbecco’s Medium (IMDM) (Sigma-Aldrich, catalogo # I3390) con il 10% di siero bovino fetale (FBS). Le cellule HL60 (ATCC, catalogo #CCL-240) sono state coltivate in Iscove’s Modified Dulbecco’s Medium (IMDM) (Sigma-Aldrich, catalogo # I3390) con siero bovino fetale al 10% (FBS) e 4 mM glutamax (Life Technologies, catalogo # 35050061 ). Il test di routine del micoplasma è stato eseguito utilizzando il MycoAlert Mycoplasma Detection Kit (Lonza, catalogo n. LT07-318) e la convalida della linea cellulare è stata eseguita dall’Australian Genome Research Facility utilizzando l’analisi dei microsatelliti personalizzata. Le linee cellulari sono state trattate con 100 nM 5-aza-2′-deossicitidina (decitabina, DAC) ogni 24 h (0, 24 e 48 h) e raccolte a 72 h.

Gli esperimenti che coinvolgono campioni umani sono stati approvati dai comitati etici umani del servizio sanitario dell’area Hunter New England e dall’Università di Newcastle e tutti i metodi sono stati eseguiti in conformità con le linee guida e i regolamenti pertinenti. Il paziente con LMA incluso in questo studio (AML01) è stato reclutato al momento della diagnosi attraverso il Calvary Mater Newcastle Hospital, con il consenso informato scritto. Il paziente era un uomo di 60 anni, cui era stata diagnosticata una leucemia mieloide cronica secondaria a leucemia mielomonocitica. La valutazione clinica ha rivelato un cariotipo complesso che include un isocromosoma 17q e mutazioni nel ASXL1, SETBP1 e SRSF2 geni. Le cellule mononucleate arricchite sono state purificate dal sangue periferico utilizzando il mezzo di gradiente di densità Lymphoprep (StemCell, catalogo n. 7851) e tubi SepMate (StemCell, catalogo n. 85450) e crioconservate.

Ordinamento delle celle

Le cellule KG1a sono state colorate utilizzando il PE Annexin V Apoptosis Detection Kit (BD Life Science, catalogo n. 559763). Cellule vive (Annexin V/7-AAD) sono stati smistati in singoli pozzetti di una piastra da 96 pozzetti contenente tampone di lisi 2,5μL RLT Plus Lysis Buffer (QIAGEN, catalogo n. 1053393) con 1U/μL SUPERase-In (ThermoFisher, catalogo n. AM2696). Prima dell’ordinamento, sono stati raccolti campioni KG1a di massa di 1.000.000 di cellule sia dalla popolazione non trattata che da quella trattata per il confronto con singole cellule. Le cellule HL60 sono state colorate con ioduro di propinio (PI) (ThermoFisher, catalogo n. P1304MP) e cellule vive (PI)) sono stati smistati in una piastra da 96 pozzetti contenente tampone di lisi 2,5μL RLT Plus Lysis Buffer con 1U/μL SUPERase-In.

Le cellule umane primarie crioconservate sono state risospese in mezzi di scongelamento (IMDM, 20% FBS), lavate due volte e risospese. Le cellule sono state quindi lasciate riposare per 1 ora a 37 ° C prima della preparazione per la citometria a flusso. Celle (1 x 106/100 μl) sono stati colorati con 1,5 μg/mL di ioduro di propidio (PI, Sigma-Aldrich, P1304MP), 1:20 CD45-PECy7 (2D1, catalogo Life Technologies, n. 25-9459-42), 1:20 CD33-FITC (WM-53, Life Technologies, catalogo n. 11-0338-42) e 1:20 CD19-BV711 (SJ25C1, BD Biosciences, catalogo n. 563036). Singoli colpi (PI .)/CD45di) sono stati raccolti in 2,5μL di tampone di lisi RLT Plus contenente 1U/μL di SUPERasi-In in piastre da 96 pozzetti.

Preparazione della biblioteca

Abbiamo utilizzato il protocollo G&T-seq per separare il DNA genomico e l’RNA dai campioni unicellulari45. Il DNA genomico di ciascuna cellula è stato purificato ed è stata eseguita la conversione del bisolfito come descritto17, con lievi modifiche. La conversione del bisolfito è stata effettuata utilizzando il kit MagPrep diretto per la metilazione del DNA EZ-96 (Integrated Sciences, catalogo n. D5054) con metà dei volumi delle istruzioni del produttore. Il DNA convertito con bisolfito è stato eluito direttamente da MagBeads nella miscela PCR e l’amplificazione dei TE è stata eseguita con MagBeads ancora nel pozzetto. Le condizioni di ciclo della PCR utilizzate erano 95 °C per 5 minuti (1 ciclo), 98 °C per 20 s, 53 °C per 15 s, 72 °C per 1 minuto (35 cicli) e 72 °C per 10 minuti (1 ciclo). Mix PCR utilizzato 7,5 µl 1 x KAPA HiFi hotStart Uracil + ReadyMix (Millennium, n. di catalogo ROC-07959079001) e 0,3 µM di primer mix. I primer erano mirati alle sequenze consenso SINE Alu e LINE-1 e includevano una sequenza adattatore parziale all’estremità 5′ per consentire l’indicizzazione successiva con oligo a doppio indice NEBNext (Figura complementare S2A, Tabelle supplementari S1 e S2). I primer di seconda generazione includevano anche uno spaziatore di 0–5 N e una sequenza di indice di 8 bp tra l’adattatore e la sequenza di priming SINE Alu. Dopo l’amplificazione, le librerie sono state purificate utilizzando un volume di 1,2 x di perline AMPure XP (Beckman Coulter, catalogo n. A63881). Tutte le librerie sono state quindi quantificate utilizzando il kit Qubit dsDNA HS (Life Technologies), normalizzate e raggruppate in un’unica provetta. I pool sono stati quindi aggiunti a oligo a doppio indice NEBNext da 0,8 µM (Genesearch, catalogo n. E7780S) e 14,5 µl 1 x KAPA HiFi HotStart ReadyMix (Millennium, catalogo n. ROC-07958935001) per l’indicizzazione e l’aggiunta dell’adattatore. Le condizioni di ciclo della PCR utilizzate erano 98 °C per 45 s (1 ciclo), 98 °C per 15 s, 65 °C per 30 s, 72 °C per 30 s (5 cicli) e 72 °C per 5 min (1 ciclo). Le piscine sono state quindi purificate utilizzando 0,9 volte il volume di perline Ampure XP, normalizzate e combinate per il sequenziamento. Le librerie scRNA-seq abbinate sono state preparate come descritto9,17. Per AML01, 4 colonne (30 campioni e 2 controlli negativi) sono state escluse prima del sequenziamento a causa della scarsa qualità della libreria dopo un errore nella preparazione della libreria.

Un approccio di tagging dell’adattatore post-bisolfito (PBAT).46 è stato utilizzato per preparare librerie di sequenziamento dell’intero genoma di massa da popolazioni di cellule abbinate. Le biblioteche sono state preparate come descritto47, con lievi modifiche. L’oligo dell’adattatore 2 6NR utilizzato durante la sintesi del secondo filamento è stato modificato (5′-CAGACGTGTGCTCTTCCGATCTNNNNNN-3′) per essere compatibile con gli oligo a doppio indice NEBNext utilizzati per l’amplificazione della libreria.

Sequenza

Il sequenziamento delle letture del bisolfito è stato eseguito utilizzando la piattaforma Illumina MiSeq. È richiesta una bassa profondità di lettura, quindi per i dati in questa carta sono stati utilizzati kit di sequenziamento con solo 4 milioni di letture per 192 celle. Sono state utilizzate concentrazioni di caricamento della libreria di 8-10 pM con un picco di PhiX dell’1%. Abbiamo ottenuto in media 23.000 coppie di lettura per campione.

Le librerie scRNA-seq sono state sequenziate utilizzando la piattaforma NextSeq con una concentrazione di carico di 1,5 pM e un picco di PhiX dell’1%. Abbiamo escluso tutte le celle con tassi di allineamento inferiori all’80%. Con circa 1.000.000 di letture per cellula, abbiamo misurato tra 6300 e 15.000 geni in tutte le nostre librerie scRNA-seq KG1a a cellula singola (Tabella Supplementare S5). I numeri genici misurati nelle cellule AML01 erano più modesti, con tra 2800 e 5200 geni nelle cellule che superavano il controllo di qualità (Tabella Supplementare S6).

Le librerie PBAT sono state sequenziate utilizzando la piattaforma MiSeq. Queste librerie sono state preparate con l’intenzione di misurare i livelli globali di metilazione del DNA e come tali sono state anche sequenziate con una bassa profondità di lettura (~ 100.000 letture per campione di massa).

Elaborazione e analisi dei dati (scTEM-seq)

Dopo il demultiplexing iniziale degli indici Illumina primari, Cutadapt (v2.10)48 è stato utilizzato per demultiplare i pool in base a indici secondari personalizzati (tabella supplementare S1). I comandi -ge -G sono stati usati per passare elenchi di indici in avanti e indietro denominati come file .fasta a Cutadapt. Le letture di bisolfito sono state tagliate usando Trim Galore (v0.6.5)49. 10 bp sono stati tagliati da entrambe le estremità 5′ e 3′ per rimuovere le sequenze di adattatori rimanenti dalle letture. Le letture sono state mappate su Bowtie2 (v 2.4.1)50 genoma umano indicizzato (GRCh38) utilizzando Bismark (v0.22.3) in modalità non direzionale e paired-end51. Il modulo di estrazione per metilazione di Bismark è stato quindi utilizzato per produrre file di copertura per l’analisi della metilazione.

La copertura degli elementi trasponibili annotati è stata misurata nei dati scTEM-seq utilizzando SeqMonk (v1.46.0)52. Abbiamo escluso le celle con copertura inferiore a 1000 siti TE annotati (o 500 per celle HL60) utilizzando le annotazioni di Repbase. I livelli di metilazione sono stati calcolati da file .cov utilizzando la media di tutti i siti CpG coperti (Figg. 1C, D, 2B, 3 e Figg. S7 e S8 supplementari).

Elaborazione e analisi dei dati (PBAT)

Le librerie PBAT sono state tagliate usando Trim Galore per rimuovere 9 bp dall’estremità 5′ di tutte le letture. Le letture sono state mappate utilizzando Bismark in modalità non direzionale e paired-end. Le letture non mappate sono state riallineate in modalità single-end per tenere conto delle letture chimeriche viste nelle librerie PBAT53. Dopo aver prodotto i file di copertura con il modulo di estrazione per metilazione Bismark, gli allineamenti di estremità accoppiati e singoli per ciascun campione sono stati uniti in un unico file utilizzando il comando cat (concatenate). L’analisi a valle è stata eseguita utilizzando SeqMonk. I livelli di metilazione della citosina dell’ampio genoma erano in media su piastrelle di 3000 bp. I livelli di metilazione SINE Alu sono stati misurati su siti Alu annotati utilizzando le annotazioni Repbase.

Elaborazione e analisi dei dati (scRNA-seq)

I dati scRNA-seq sono stati tagliati utilizzando Trim Galore, con l’impostazione predefinita in modalità paired-end. Hisat254 (v2.1.0) e Samtools55 (v1.10) sono stati utilizzati per convertire, mappare e allineare letture univoche e ambigue al genoma di riferimento umano build GRCh38 da letture fastq grezze in formato bam. T trascrizioni56 è stato utilizzato per ottenere i conteggi dei geni grezzi e degli elementi trasponibili dalle letture univoche e allineate in modo ambiguo utilizzando i file GTF per 1) TE (http://labshare.cshl.edu/shares/mhammelllab/www-data/TEtranscripts/TE_GTF/) e 2) geni (https://asia.ensembl.org/info/data/index.html; release 101 dal server FTP) in formato GRCh38 ensembl. TEtranscripts è stato eseguito in un Conda57 configurazione dell’ambiente con Python (v3.7.7)58Pysam (v0.16.0.1)59R-base (v4.0.3) e Bioconductor-Deseq2 (v1.28.0)60.

La correlazione dell’espressione genica e TE con la metilazione del DNA (Fig. 2, Fig. S6 supplementare) è stata eseguita utilizzando R61. Le trascrizioni con almeno 2 letture in 10 celle sono state incluse nell’analisi. I conteggi delle letture per i dati scRNA-seq sono stati normalizzati per milione di letture per ciascun campione e il log trasformato. La funzione Cor.test utilizzando il metodo di Pearson è stata utilizzata per correlare i conteggi del gene e della trascrizione TE con i livelli di metilazione del DNA. I valori P per la significatività della correlazione sono stati corretti per i tassi di falsa scoperta utilizzando la funzione p.adjust e il metodo fdr. L’ontologia genica è stata eseguita sui geni di interesse dall’analisi di correlazione utilizzando Panther62 analisi di sovrarappresentazione statistica. Il set di dati completo del processo biologico GO di Panther è stato utilizzato per l’annotazione del gene e i geni espressi (almeno 10 letture in 2 celle) sono stati utilizzati come elenco di riferimento per l’analisi di sovrarappresentazione statistica. I risultati di correlazione, boxplot e ontologia genica sono stati tracciati utilizzando ggplot2 (v3.3.5)63.

L’analisi dell’espressione differenziale è stata eseguita in R utilizzando DESeq2 (v1.32.0)60 su geni e TE a livello familiare (somma dei conteggi degli elementi TE) su cellule che passano il controllo di qualità della libreria iniziale ed escludono le caratteristiche (geni e TE) con meno di 5 letture in almeno 3 cellule. I parametri predefiniti sono stati utilizzati in DESeq2 con la soglia di significatività impostata su p aggiustato <0,05. La mappatura termica è stata eseguita su tutti gli elementi TE appartenenti alle famiglie TE "significativamente espresse in modo differenziale". I conteggi di geni e TE (a livello di elemento) sono stati normalizzati dalla trasformazione della stabilità della varianza (vst) (DESeq2) e il sottoinsieme di elementi TE è stato estratto, centrato sulla media e pheatmap (v1.0.12) 64 è stato utilizzato per produrre le mappe di calore con raggruppamento per distanza euclidea su entrambe le righe (TE) e colonne (celle), con etichette aggiuntive per il trattamento, corrispondenti ai livelli di metilazione globale e alla “famiglia” TE a cui appartiene ogni “elemento”.

Leave a Comment