Interactive · MSc Tezi · ODTÜ Biyoteknoloji · Eylül 2024

Yeni Nesil Hücre Tipi Anotasyonu

NLP ve ML tekniklerini birleştirerek scRNA-seq verisinde hücre tipi sınıflandırmasını iyileştiren bir sistem. Aşağı kaydır — baştan sona.

01 — Problem

Hücre tipini tanımlamak neden zor?

Tek hücre RNA dizilemesi (scRNA-seq) her hücrenin gen ifade profilini çıkarır. Ama bu veri yüksek boyutlu ve karmaşıktır.

Bir hücrenin hangi tip olduğunu (T hücresi, B hücresi, monosit...) doğru etiketlemek kritiktir. Geleneksel yöntemler genler ile hücre tipleri arasındaki ilişkiyi yeterince yakalayamaz.

Tezin çıkış noktası: bu ilişkiyi daha iyi modelleyip anotasyon doğruluğunu yükseltmek.

02 — Fikir

Genleri "metin" gibi okumak

Çekirdek fikir: gen sembollerini doğal dil işleme (NLP) ile embedding'e dönüştürmek. BERT, GPT2 ve GPT3'ün tokenizer + embedding kısımları kullanılarak her gen sembolü bir vektöre çevrilir.

Bu embedding'ler genler arasındaki anlamsal ilişkileri yakalar — sadece ifade değerlerinden görünmeyen bağlantıları.

Özgünlük: BERT/GPT2/GPT3 tokenizer'larını autoencoder'larla birleştirip hücre tipi anotasyonunda kullanan başka bir çalışma yok.

03 — Sistem Mimarisi

İki fazlı tasarım

Tüm çalışma iki faz üzerine kuruldu — bu, deneyleri objektif kıyaslanabilir kılan mühendislik kararıydı.

Faz 1 — Scanpy

Human Cell Atlas PBMC verisinin 10 adımlı ön-işleme + kalite kontrol hattı. Filtreleme, normalizasyon, boyut indirgeme.

Faz 2 — 5 Pipeline

Aynı protokolü izleyen ama veri işleme adımları farklı 5 ayrı pipeline. Her biri tek bir değişkeni izole eder.

04 — Karşılaştırma Tasarımı

5 pipeline, tek değişken

Her pipeline aynı veriyi alır ama girdi kombinasyonu farklıdır. Bu, "hangi bileşen ne kadar katkı sağlıyor?" sorusunu net cevaplar.

1Only Text EmbeddingF1 0.790

2Text Embedding + Gene ExpressionF1 0.818

3Only Gene ExpressionF1 0.312

4One-Hot Encoded + Gene ExpressionF1 0.262

5Only One-Hot EncodedF1 0.231

05 — Metodoloji Akışı

Embedding → Outlier → Autoencoder → ML

Bir pipeline'ın içindeki dört adım:

1Metin embeddingNLP tokenizer ile gen sembolleri vektöre çevrilir
2Aykırı değer tespitiZ-Score, Isolation Forest, Local Outlier Factor
3AutoencoderEncoder kısmı ile boyut indirgeme + öznitelik çıkarımı
4ML tahminiNeural Network, SVM, SGD, Decision Tree, Random Forest

06 — Veri

PBMC verisi ve metin kurgusu

Ana veri seti: Human Cell Atlas'tan PBMC (COVID-19 multi-omik kan atlası). Gen adı eşlemesi için Human Protein Atlas'ın 19.751 gen sembollü veri seti kullanıldı.

17 hücre tipi, küme başına en yüksek ifadeli 100 gen, toplam 1700 yüksek değişkenlikli gen (HVG).

Type I

1 kombinasyonu

Type II

5 kombinasyonu

Type III

8 kombinasyonu

07 — Sonuçlar

En iyi sonuç: F1 = 0.818

En yüksek skor, Pipeline 2 (Metin Embedding + Gen İfadesi) ile Type III (8 gen) kurgusunda elde edildi: F1 = 0.818.

0.79

0.82

0.31

0.26

0.23

One-hot encoding pipeline'ları en düşük skoru aldı (~0.23). Metin embedding'leri ile arada 0.48–0.59'luk belirgin fark var.

08 — Bulgular

Neye ulaşıldı?

Metin (text) tabanlı pipeline'lar diğer tüm yaklaşımları belirgin biçimde geçti.
GPT3 en iyi embedding modeli oldu; GPT2 de BERT'ten daha iyi temsiller üretti.
Type III (8 gen) metin kurgusu, daha basit kurgulardan tutarlı şekilde üstün çıktı.
Autoencoder kullanımı model performansını artırdı.
Aykırı değer (outlier) tespiti sonuçları iyileştirdi.
Veri ön-işleme tasarımı, seçilen ML modelinden daha belirleyiciydi.
Metin embedding'leri genler arası karmaşık ilişkileri etkili biçimde yakaladı.
Yöntem, one-hot encoding yaklaşımlarından daha doğru sonuç verdi.

09 — Etki & Gelecek

Model Atlas'a doğru

Sonuçlar, gen sembolleri + ifade seviyelerinden yüksek doğrulukla hücre tipi tahmin edilebileceğini gösterdi — yani mevcut veri atlası projeleri gibi bir "Model Atlas" kurmak mümkün.

Gelecek çalışma: farklı sinir ağı katman tasarımları, genlerin "yokluğu" bilgisini kullanma, ve scRNA-seq'i scATAC-seq ile birleştiren tek-hücre multi-omik yaklaşımlar.

"Key is getting information from data"

— Araştırma felsefem

Tez özetine ve PDF'e dön