Tüm Yazılar
Yarışma2026-05-1012 dk okuma

VARIANT-GNN: Teknofest 2026 Sağlıkta YZ — Teknik Derinlemesi

VARIANT-GNN, insan genomundaki missense varyantların patojenik mi yoksa benign mi olduğunu tahmin eden hibrit bir yapay zeka sistemi. XYRA3 takımı olarak Teknofest 2026 Sağlıkta Yapay Zeka Yarışması'na başvurduk ve ön elemeyi başarıyla geçtik. Bu yazıda ne yaptığımızı ve neden öyle yaptığımızı anlattım.

Problem: İnsan Genomundaki VUS Krizi

İnsan genomunda milyonlarca varyant var. Genetik testlerde bu varyantların büyük bölümü "VUS" (Bilinmeyen Anlam Varyantı) olarak raporlanıyor. Bu varyantların patojenik mi yoksa zararsız mı olduğunu belirlemek kritik, ama son derece zor.

Yarışma şartnamesi ek bir kısıt getirdi: genomik adres tamamen gizli. Harici veritabanlarından etiket araması yapılamıyor. Model, yalnızca anonim varyant profilleriyle çalışmak zorunda. Bu, hem bir kısıt hem de gerçek dünya koşullarını yansıtan doğru bir tasarım.

Mimari: Neden Tek Model Yetmez?

İlk soru şuydu: neden ensemble? Cevap ablasyon çalışmasında ortaya çıktı. Her model farklı bir şeyi öğreniyordu: GNN ilişkisel yapıyı, boosting modelleri tablo özelliklerini, DNN derin temsilleri. Modellerin hataları örtüşmüyordu — bu birleşimi güçlü kıldı.

Ağırlıklar Nelder-Mead optimizasyonuyla belirlendi. XGBoost ve LightGBM daha ağır, GATv2GNN ve DNN daha hafif ağırlıklara sahip.

GATv2Conv: Neden GAT Değil?

Graf dikkat mekanizmasında kritik bir seçim var. Klasik GAT'ta dikkat puanı yalnızca kaynak düğüme bağlı — bu statik dikkat. Hedef düğümün özellikleri dikkate alınmıyor.

GATv2 (Brody et al. 2021) ise hem kaynak hem hedef düğümü hesaba katar — dinamik dikkat. Genomik bağlamda bu önemli: aynı varyant, farklı komşularla farklı ilişkiler kurabilmeli.

Mimaride 3 GATv2Conv bloğu var, her blokta LayerNorm, LeakyReLU, Dropout ve skip connection.

Graf Topolojisi: Koordinatsız k-NN

Genomik adres gizli olduğu için pozisyon tabanlı bir graf kurulamaz. Çözüm: cosine benzerlik tabanlı k-NN graf. Varyantlar özellik uzayındaki benzerliklerine göre bağlanıyor — koordinat gerektirmiyor, şartname kısıtına tam uyumlu.

Önemli bir teknik detay: train ve validation için ayrı graflar kuruyoruz. Aynı grafı paylaşmak veri sızıntısı yaratırdı.

Çok Adımlı Sızıntısız Ön İşleme

Her adım yalnızca eğitim fold'unda fit edildi, validation/test'e sadece transform uygulandı. Pipeline şu adımlardan oluşuyor:

  1. 1.ColumnAligner — anonim kolonları hizalar
  2. 2.ACMGProxyFeatures — kural tabanlı biyolojik özellik türetme
  3. 3.SimpleImputer — eksik değer doldurma
  4. 4.RobustScaler — aykırı değere dayanıklı normalizasyon
  5. 5.BiologicalEnrichment — BLOSUM62 + Grantham skoru ekleme
  6. 6.SMOTE — isteğe bağlı, varsayılan kapalı
  7. 7.Özellik Seçimi — ANOVA tabanlı
  8. 8.AutoEncoder — latent temsil ekleme
  9. 9.Cosine k-NN Graf — PyG formatında graf oluşturma

Güvenilirlik Katmanı

Model tahminleri üç katmandan geçiyor:

İsotonik Kalibrasyon — ham olasılıkları kalibre ediyor. Yalnızca kalibrasyon setiyle fit edildi, test seti hiç görmedi.

MC Dropout — GNN için birden fazla forward pass, standart sapma belirsizlik ölçüsü olarak kullanılıyor. Yüksek belirsizlik → uzman değerlendirmesi bayrağı. Gözlem: hatalı tahminlerde belirsizlik, doğru tahminlerden belirgin şekilde yüksek.

OOD Dedektörü — Z-score + Mahalanobis + KDE kombinasyonu. Eğitim dağılımından uzak varyantları bayraklar.

Panel Yapısı

Yarışma 4 farklı panel içeriyor: genel veri seti, kalıtsal kanser paneli, fenilketonüri (PAH) ve kistik fibrozis (CFTR). Her panel için ayrı eşik optimizasyonu yapıldı. CFTR gibi küçük ve yüksek riskli panellerde kaçırılan patojenik varyant sayısının sıfıra yakın tutulması öncelikliydi.

Hakem Değerlendirmesi

PSR aşamasını başarıyla geçtik. Veri ve Yöntem bölümünde tam puan aldık — bu, sızıntısız pipeline ve koordinatsız graf tasarımının doğrulandığı anlamına geliyor. Açıklanabilirlik ve öğrenme süreci anlatımı PDR için derinleştiriliyor: GNNExplainer görsel çıktıları, waterfall grafikleri ve LIME-SHAP örtüşme analizi ekleniyor.

SWA ve Tekrarlanabilirlik

Son epoch'ların bir bölümünde SWA (Stochastic Weight Averaging) uygulandı — checkpoint ortalaması alarak genelleme performansı artırıldı.

Tüm RNG kaynakları sabit seed ile kilitlendi. Şartname gereği jüri istediği zaman kodu çalıştırıp aynı sonuçlara ulaşabilmeli.

PDR teslimi: 29 Haziran 2026. TEKNOFEST Şanlıurfa finali: 30 Eylül – 4 Ekim 2026.

Proje: github.com/msgxr/VARIANT-GNN

Tüm YazılarMuhammed Sina Gün