RNASeq a analýza diferenciální exprese

Analýza diferenciální genové exprese, běžně zkracovaná jako DG nebo DGE analýza, je analýza rozdílů v četnosti výskytu genových transkriptů v transkriptomu podle fenotypu nebo experimentálních podmínek. Cílem analýzy diferenciální exprese je určit, které geny jsou odlišně exprimovány mezi porovnávanými podmínkami. Tyto geny mohou nabídnout biologický náhled na procesy ovlivněné podmínkou (podmínkami) zájmu.

Protože počet genů, které jsou rozdílně exprimovány mezi vzorky, může být vysoký, je nutná metoda k pochopení a interpretaci významu tolika změn genové exprese. Metoda musí umožnit seskupení genů, které patří do konkrétní kategorie a mají odlišnou hladinu exprese v jednom vzorku ve srovnání s jiným vzorkem. Například pokud má vzorek rakoviny prsu odlišně než kontrolní vzorek exprimováno více genů, které jsou všechny anotovány jako „geny buněčného cyklu“. Seskupení genů lze provést na základě řady zdrojů, jedním z nich je Gene ontology databáze (GO).

Gene Ontology (GO) databáze je největším zdrojem informací o funkcích genů na světě. Tyto informace jsou dostupné/čitelné člověkem i strojově a tvoří základ pro výpočetní analýzu rozsáhlých molekulárně biologických a genetických experimentů v biomedicínském výzkumu. GO definuje pojmy / třídy používané k popisu funkce genů a vztahy mezi těmito pojmy.

Analýza DGE v naší laboratoři proto zahrnuje:

Zpracování a sekvenování vzorků RNA
Kontrola kvality hrubých dat, trimming bází s nízkou kvalitou a ořezávání sekvencí adaptérů
Mapování na referenční sekvenci (genom nebo transkriptom)
Počítání readů + normalizace
Analýza genové exprese pomocí balíčků DESeq2 a edgeR
Genová anotace a analýza genové ontologie (GO)
Vyhodnocení a shrnutí, zpráva o analýze dat

Pokud již máte nezpracovaná data od jiného poskytovatele sekvenačních služeb a potřebujete pouze pomoci s jejich analýzou, jsme vám také k dispozici.

Poznámka: Seznamy genů, které se liší mezi dvěma nebo více sadami vzorků, jsou často získány technologií RNA-seq. RNA-Seq umožňuje sledovat nejen změny v genové expresi v průběhu času nebo rozdíly v genové expresi v různých skupinách nebo léčbě. Tuto techniku můžete použít také ke zkoumání alternativního sestřihu, post-transkripčních modifikací, genových fúzí nebo mutací / SNP. Pokud jsou toto vaše cíle a potřebujete analýzu vzorků nebo dat, neváhejte nás kontaktovat.

Požadovaná hloubka čtení (množství dat)

Množství dat potřebných na vzorek lze určit konceptem hloubky. Například vzhledem k tomu, že lidský transkriptom tvoří 3% lidského genomu (3 Gb), znamená 90 Mb dat hloubku 1× a tedy průměrné pokrytí každého exprimovaného nukleotidu jednou. Některé geny jsou však exprimovány mnohem silněji než jiné a některé geny naopak málo, takže i hloubka 1000× by poskytla jen rovnoměrnou šanci na sekvenování transkriptu, který je v buňce 1 na tisíc.

Množství potřebných dat proto závisí na strategii přípravy knihovny (ribodeplece, polyA selekce, …), zdrojovém organismu a velikosti jeho transkriptomu / genomu a genech, na které se chceme zaměřit (ať už předpokládáme vysoké nebo nízké úrovně jejich transkriptů) ).

Pro DGE lidských vzorků se obecně doporučuje nejméně 30 mil. readů na vzorek a v případě nemodelového organismu může být zapotřebí provedení pilotní studie.

Laboratorní zpracování

Požadujete-li laboratorní zpracování, dodáváte RNA nebo hotové sekvenační knihovny. Chcete-li objednat pouze analýzu dat, čtěte níže.

Musíte provést izolaci RNA. V naší laboratoři budou vaše vzorky zpracovány následně takto:

Kontrola kvality
Příprava knihoven - Zpracována je buď celková RNA nebo jednotlivé populace RNA, jako je mRNA nebo malé RNA. rRNA, stejně jako hojné mRNA transkripty jako je např. globin, mohou být odstraněny, aby sekvenační kapacita byla využita výhradně na RNA vašeho zájmu. Odstranit lze rRNA těchto organizmů:
- Lidská, myší, potkaní rRNA
- Bakteriální nebo kvasinková rRNA
- Rostlinná rRNA
- Rybí rRNA
- rRNA Caenorhabditis elegans a Drosophila melanogaster
Kvantifikace knihoven pomocí qPCR
Sekvenování na Illumina NovaSeq6000, paired-end, 150 b (není-li dohodnuto / požadováno jinak)
Vyhodnocení výsledků

Výsledky a záruka

Získané sekvence budou roztříděny dle kombinace indexů do souborů reprezentujících jednotlivé vzorky a bude provedena analýza ukazatelů kvality sekvenace, jako je počet a délka sekvencí, phred score, %GC, úroveň duplikace atp.

Jako výstup obdržíte data ve formátu FASTQ rozdělená do souborů dle jednotlivých vzorků.

Analýza dat

Požadavky na provedení analýzy dat:

Je důležité si uvědomit, že gen je považován za diferenciálně exprimovaný, pokud je pozorovaný rozdíl hladiny jeho exprese mezi dvěma experimentálními podmínkami statisticky významný, tzn. pokud je rozdíl větší než to, co by se dalo očekávat jen kvůli náhodným změnám. DGE je tedy statistická technika a jako taková musí splňovat základní statistické požadavky týkající se počtu vzorků / skupin k porovnání. K úspěšnému provedení DGE na vašich datech je proto nezbytné:

Váš projekt musí být navržen tak, aby měl alespoň 2 skupiny vzorků k porovnání s alespoň 3 biologickými replikáty na vzorek / skupinu. Nejmenší soubor dat jsou tedy 2 skupiny (vzorky), každá se 3 biologickými replikáty = 6 souborů dat.
Musíte určit kontrolní a cílovou (treatment) skupinu.
Musí být k dispozici referenční sekvence genomu nebo transkriptomu (formát FASTA) a anotace genomu (formát GFF / GTF), nejlépe z veřejných databází jako je NCBI, ENSEMBL, UCSC atd. Referenční sekvencí může být sekvence genomu ze stejného organismu jako zdrojová RNA nebo blízce příbuzný druh. Referenční sekvence mohou být také blízce příbuzné transkriptomové sekvence.
Pokud je nutná vyšší citlivost a specificita experimentu, doporučujeme použít RNA spike-in transkripty. Analýza dat může být také provedena v případě chybějící referenční sekvence nebo s méně než 3 replikáty na vzorek. Ve všech těchto případech nás prosím kontaktujte před objednáním.

Výstupy (eng):

Trimmed data in fastq format, multiqc report
Aligned data in bam format, qualimap reports
Matrix table with transcripts abundance
Rescaled data according to the TMM normalization factors
Expression values for all transcripts
Volcano and MA plot in pdf format
Count of differentially expressed genes
Correlation heat map of each samples in pdf format
Heat map of differentially expressed genes
GO terms table + graphical output, web link to GO results

Kurz nebo workshop

Máte-li zájem naučit se analyzovat získaná data, navštivte náš pravidelně organizovaný workshop!
Začátečníkům doporučujeme rovněž účast na našem dvoudenním úvodním kurzu NGS.

Požadavky na vzorky

Dodržujte naše Pokyny pro přípravu vzorků. Pro úspěšné provedení analýzy dat je zapotřebí alespoň 6 vzorků / datových souborů.

Upozorňujeme, že úspěch analýzy velmi závisí na integritě RNA, kterou nám dodáte! Použití degradované RNA může vést k problémům při přípravě standardních sekvenačních knihoven. Pokud nemůžete izolovat RNA o vysoké integritě (RIN>7), zvažte objednání knihoven typu 3' mRNA library (QuantSeq/UMI), kde nejsou požadavky na kvalitu materiálu vysoké a je tedy možná i analýza degradované RNA.

Jak službu objednat

Analýzu lze objednat včetně laboratorního zpracování vzorků nebo pouze jako analýzu dat. Chce-li objednat laboratorní zpracování technologií Illumina, volte možnost Illumina - Sekvenování na zakázku.

Chcete-li objednat pouze analýzu dat, volte Bioinformatické služby.

RNASeq a analýza diferenciální exprese