MSc Tezi - ODTÜ Biyoteknoloji

Yeni Nesil Hücre Tipi Anotasyonu:
NLP ve ML Tekniklerinin Entegrasyonu

MSc tezim, gen metin embedding'lerini autoencoder'larla kullanarak tek hücre RNA dizilemesi sınıflandırmasını geliştirmek için Doğal Dil İşleme ve Makine Öğrenmesi'nin entegrasyonunu inceler.

Tüm derslerden GPA: 4.0
Interactive: Tezi baştan sona gez

Özet

Bu tez, tek hücre RNA dizileme (scRNA-seq) verisinde hücre tipi anotasyonuna, Doğal Dil İşleme (NLP) tekniklerini geleneksel makine öğrenmesi yöntemleriyle birleştiren özgün bir yaklaşım sunar. Araştırma, hücre tipi sınıflandırmasının doğruluğunu ve verimliliğini artırmak için gen metin embedding'lerini autoencoder'larla birleştirmeye odaklanır.

Metodoloji, genler arasındaki anlamsal ilişkileri yakalamak için NLP'nin en gelişmiş metin embedding tekniklerini, tek hücre ifade profillerinin sıkıştırılmış temsillerini öğrenen autoencoder mimarileriyle birleştirir. Bu hibrit yaklaşım, scRNA-seq verisinin yüksek boyutlu doğasını ele alırken gen açıklamalarında kodlanmış biyolojik bilgiyi de dahil eder.

Temel katkılar: (1) scRNA-seq analizine özel bir gen embedding çerçevesinin geliştirilmesi, (2) bu embedding'lerin boyut indirgeme için autoencoder mimarileriyle entegrasyonu, ve (3) geleneksel yöntemlere kıyasla geliştirilmiş hücre tipi sınıflandırma doğruluğunun gösterilmesi.

Temel Araştırma Bulguları

Gen Metin Embedding'leri

Genlerin açıklamalarına ve anotasyonlarına dayanarak aralarındaki biyolojik ilişkileri ve işlevsel benzerlikleri yakalayan özgün gen metin embedding teknikleri geliştirildi.

Autoencoder Entegrasyonu

Biyolojik bilgiyi korurken boyutu azaltan sıkıştırılmış temsiller oluşturmak için autoencoder mimarileri gen embedding'leriyle başarıyla entegre edildi.

Geliştirilmiş Sınıflandırma

Hücre tipi anotasyonunda belirgin doğruluk artışı sağlandı; NLP ve ML tekniklerinin biyoinformatik uygulamalarında birleştirilmesinin etkinliği gösterildi.

Teknik Uygulama

Kullanılan Teknolojiler

Python: Temel programlama dili
Scanpy: Tek hücre analiz çerçevesi
PyTorch: Derin öğrenme uygulaması
Transformers: NLP embedding'leri
scikit-learn: ML algoritmaları

Temel Yenilikler

Özgün Embedding Yaklaşımı

Biyolojik açıklamalar ve GO terimleri kullanılarak, ifade değerlerinin ötesinde anlamsal ilişkileri yakalayan gen embedding'leri oluşturuldu.

Hibrit Mimari

Geleneksel biyoinformatik yaklaşımları, daha iyi biyolojik yorum için modern NLP teknikleriyle birleştirildi.

Ölçeklenebilir Uygulama

Milyonlarca hücre içeren büyük ölçekli scRNA-seq veri setlerinin verimli işlenmesi için tasarlandı.

Araştırma Etkisi

Bu araştırma, doğal dil işleme tekniklerinin biyolojik veri analizini nasıl geliştirebileceğini göstererek hesaplamalı biyoloji alanına katkı sağlar. Geliştirilen yöntemlerin hassas tıp, ilaç keşfi ve karmaşık dokulardaki hücresel heterojenliği anlama gibi potansiyel uygulamaları vardır.

"Önemli olan veriden bilgi çıkarmaktır"

- Araştırma felsefem

Orçun Sami Tandoğan - Python Developer & Data Scientist