Interactive · MSc Tezi · ODTÜ Biyoteknoloji · Eylül 2024
Yeni Nesil Hücre Tipi Anotasyonu
NLP ve ML tekniklerini birleştirerek scRNA-seq verisinde hücre tipi sınıflandırmasını iyileştiren bir sistem. Aşağı kaydır — baştan sona.
Hücre tipini tanımlamak neden zor?
Tek hücre RNA dizilemesi (scRNA-seq) her hücrenin gen ifade profilini çıkarır. Ama bu veri yüksek boyutlu ve karmaşıktır.
Bir hücrenin hangi tip olduğunu (T hücresi, B hücresi, monosit...) doğru etiketlemek kritiktir. Geleneksel yöntemler genler ile hücre tipleri arasındaki ilişkiyi yeterince yakalayamaz.
Tezin çıkış noktası: bu ilişkiyi daha iyi modelleyip anotasyon doğruluğunu yükseltmek.
Genleri "metin" gibi okumak
Çekirdek fikir: gen sembollerini doğal dil işleme (NLP) ile embedding'e dönüştürmek. BERT, GPT2 ve GPT3'ün tokenizer + embedding kısımları kullanılarak her gen sembolü bir vektöre çevrilir.
Bu embedding'ler genler arasındaki anlamsal ilişkileri yakalar — sadece ifade değerlerinden görünmeyen bağlantıları.
Özgünlük: BERT/GPT2/GPT3 tokenizer'larını autoencoder'larla birleştirip hücre tipi anotasyonunda kullanan başka bir çalışma yok.
İki fazlı tasarım
Tüm çalışma iki faz üzerine kuruldu — bu, deneyleri objektif kıyaslanabilir kılan mühendislik kararıydı.
Faz 1 — Scanpy
Human Cell Atlas PBMC verisinin 10 adımlı ön-işleme + kalite kontrol hattı. Filtreleme, normalizasyon, boyut indirgeme.
Faz 2 — 5 Pipeline
Aynı protokolü izleyen ama veri işleme adımları farklı 5 ayrı pipeline. Her biri tek bir değişkeni izole eder.
5 pipeline, tek değişken
Her pipeline aynı veriyi alır ama girdi kombinasyonu farklıdır. Bu, "hangi bileşen ne kadar katkı sağlıyor?" sorusunu net cevaplar.
Embedding → Outlier → Autoencoder → ML
Bir pipeline'ın içindeki dört adım:
- 1Metin embeddingNLP tokenizer ile gen sembolleri vektöre çevrilir
- 2Aykırı değer tespitiZ-Score, Isolation Forest, Local Outlier Factor
- 3AutoencoderEncoder kısmı ile boyut indirgeme + öznitelik çıkarımı
- 4ML tahminiNeural Network, SVM, SGD, Decision Tree, Random Forest
PBMC verisi ve metin kurgusu
Ana veri seti: Human Cell Atlas'tan PBMC (COVID-19 multi-omik kan atlası). Gen adı eşlemesi için Human Protein Atlas'ın 19.751 gen sembollü veri seti kullanıldı.
17 hücre tipi, küme başına en yüksek ifadeli 100 gen, toplam 1700 yüksek değişkenlikli gen (HVG).
Type I
1 kombinasyonu
Type II
5 kombinasyonu
Type III
8 kombinasyonu
En iyi sonuç: F1 = 0.818
En yüksek skor, Pipeline 2 (Metin Embedding + Gen İfadesi) ile Type III (8 gen) kurgusunda elde edildi: F1 = 0.818.
One-hot encoding pipeline'ları en düşük skoru aldı (~0.23). Metin embedding'leri ile arada 0.48–0.59'luk belirgin fark var.
Neye ulaşıldı?
- Metin (text) tabanlı pipeline'lar diğer tüm yaklaşımları belirgin biçimde geçti.
- GPT3 en iyi embedding modeli oldu; GPT2 de BERT'ten daha iyi temsiller üretti.
- Type III (8 gen) metin kurgusu, daha basit kurgulardan tutarlı şekilde üstün çıktı.
- Autoencoder kullanımı model performansını artırdı.
- Aykırı değer (outlier) tespiti sonuçları iyileştirdi.
- Veri ön-işleme tasarımı, seçilen ML modelinden daha belirleyiciydi.
- Metin embedding'leri genler arası karmaşık ilişkileri etkili biçimde yakaladı.
- Yöntem, one-hot encoding yaklaşımlarından daha doğru sonuç verdi.
Model Atlas'a doğru
Sonuçlar, gen sembolleri + ifade seviyelerinden yüksek doğrulukla hücre tipi tahmin edilebileceğini gösterdi — yani mevcut veri atlası projeleri gibi bir "Model Atlas" kurmak mümkün.
Gelecek çalışma: farklı sinir ağı katman tasarımları, genlerin "yokluğu" bilgisini kullanma, ve scRNA-seq'i scATAC-seq ile birleştiren tek-hücre multi-omik yaklaşımlar.