TCGA(Kanser Genom Atlas) Verileri ile Çalışma Rehberi

Fuat Demirkol
4 min readAug 14, 2024

--

Merhaba değerli okurlar! Bu içeriğimizde Türkçe kaynağa pek fazla rastlamadığım TCGA verileri ve çalışmaları üzerine bir rehber yazmaya başlıyorum. Öncelikle Kanser Genom Atlası verilerinden, nasıl çalıştığından, neler yapabileceğinizden ve verileri nasıl yükleyebileceğinizden bahsedeceğim. Keyifli okumalar dilerim.

Kanser Genom Atlası Nedir?

Kanser Genom Atlası (The Cancer Genome Atlas — TCGA), ABD Ulusal Kanser Enstitüsü (NCI) ve Ulusal İnsan Genomu Araştırma Enstitüsü (NHGRI) tarafından 2005 yılında başlatılan büyük ölçekli bir biyomedikal araştırma projesidir.

TCGA projesi, 33'ten fazla farklı kanser türüne ait 20.000'den fazla birincil kanser örneğinin genomik verilerini içerir. Bu veriler, araştırmacılara kanserin genetik temelini keşfetme, kanser alt türlerini tanımlama ve hedefe yönelik tedaviler geliştirme konularında önemli fırsatlar sunar.

Kanser Genom Atlas

Proje, genomik sekanslama, gen ekspresyon profilleme, DNA metilasyon analizi ve kopya numarası varyasyonu gibi çeşitli genomik teknikler kullanarak, her bir kanser türü için geniş kapsamlı veriler sağlar. Bu sayede, kanser araştırmalarında devrim niteliğinde bilgiler sunarak, kişiselleştirilmiş tıbbın (personalized medicine) geliştirilmesine katkıda bulunur. TCGA’nın ürettiği veriler kamuya açık olup, dünya çapındaki araştırmacılar tarafından kullanılabilir.

TCGA

TCGA Verilerine Nasıl Ulaşabilirim?

TCGA verileri, ABD Ulusal Kanser Enstitüsü’nün Genomic Data Commons (GDC) Data Portal’ı üzerinden erişilebilir. GDC Data Portal’a buradan ulaşabilirsiniz. Portalda, farklı kanser türleri için çeşitli veri türlerini (genomik, klinik, patoloji görüntüleri vb.) araştırabilir ve indirebilirsiniz.

Verileri indirmek için GDC Data Portal’da bir hesap oluşturmanız ve giriş yapmanız gerekebilir. Lakin buna ihtiyacınız olmayacak. Örnek bir senaryo oluşturarak adım adım verileri nasıl elde edeceğinizi göstereceğim.

Senaryo: Kanser Türleri Arasındaki Mutasyon İmzalarının Karşılaştırılması.

İlk olarak 2 tür seçiyoruz. LUAD-Lung adenocarcinoma(Akciğer Kanseri) ve GBM-Glioblastoma Multiforme(Beyin Kanseri). Bu türlerin verilerini seçmek adına öncelikle buraya tıklıyoruz. Ulaştığımız Repository sitesinde Wgs Coverage, Data Category, Data Type, Data Format, Workflow Type, Platform, Acces, Tissue Type, Tumor Descriptor, Specimen Type ve Preservation Method adlı filtreler bulunur.

Repository -1

Bu bilgiler ışığında ve örnek senaryomuz dahilinde Data Type filtresinden “Masked Somatic Mutation” adlı veri tipini seçiyorum. Bu veri tipi somatik mutasyonları içerir ve MAF (Mutation Annotation Format) tipinde dosyalar olarak gelir. Daha detaylı olarak anlatmak adına Data Format filtresinden “maf” adlı formatı seçiyorum. Acces filtresinden ise controlled yerine “open” adlı filtreyi seçiyorum.

Format ve Erişim

Ardından dosya yapısını azaltmak ve doğru saklama yöntemini seçmek adına bilinmeyenleri yöntemleri(unknown) ayıklıyoruz. Ardından OCT(Optimal Cutting Temperature) yöntemini seçiyoruz ve kalan dosya sayısını 90'a indiriyoruz.

Metod Seçimi

Değerli okuyucular, bu dosyaları nasıl indireceğimize ve nasıl kullanacağımıza bir göz gezdirelim.

TCGA Verileri Nasıl İndirilir?

Tüm işlemleri yaptıktan sonra sağ tarafta yer alan “Add All Files to Cart” adlı butona basıyoruz. Bu buton ile birlikte seçtiğimiz tüm dosyalar sepet simgesine sahip olan karta taşınmaktadır. Ardından buraya tıklayarak kart sekmesine ilerleyiniz. 82 adet TCGA-LUAD ve 8 adet TCGA-GBM dosyası olduğunu göreceksiniz. Yukarıda 2 adet download butonundan solda bulunan butona tıkladığınızda çıkan Manifest butonuna tıklamalısınız. Bununla birlikte bu dosya sizin, bilgisayarınıza tüm bu dosyaları yüklemenize olanak tanıyacaktır.

Manifest

GDC Data Transfer Tool Kurulumu

Elbette manifest dosyasını indirmekle dosyaları kurma işlemi bitmiyor. Ardından GDC Data Transfer Tool adlı client dosyasını kurmanız gerekiyor.

Buraya tıklayarak uygulamayı kurmak için gereken siteye ulaşabilirsiniz.

İndirme Ekranı

İşlemcinize göre “GDC Data Transfer Tool Client” dosyasını seçiniz. İndirmenizin ardından kurulum için bir dosyanın içerisine atınız. Ardından dosya içerisinde uygulamaya tıklamanız yeterli.

GDC Client’in kurulu olup olmadığını kontrol etmek için terminali açmanız gerekiyor. Terminali açmanızın ardından. Yazacağınız komut şu şekildedir.

cd C:\gdc

Benim bilgisayarımda gdc client uygulaması C diskinde gdc klasöründe bulunduğundan dolayı cd komutu ile o dosyaya ilerledim.

Ardından yapacağınız işlem:

gdc-client
Ulaşılacak Ekran

Şimdi indirdiğimiz manifest dosyasını yükleme zamanı. Dosyamızı gdc client ile aynı yere taşıyoruz. Taşımanızın ardından yazacağınız kod bloğu şu şekilde olacaktır:

gdc-client download -m gdc_manifest.2024-08-14.txt

Alabileceğiniz hatalar için .txt takısını unutmamanız ve gdc-client download -m bloğunun temel olduğunu söylememde fayda var. Şimdi size bu kodun ardından çıktı olacak görüntüyü göstereceğim. Klasörünüze dosyalar gelmeye başlayacaktır. Bu bir örnek senaryodur. Siz çalışmak istediğiniz dosyaları seçip istediğiniz şekilde çalışmalısınız.

Sonuç ekranı

Buraya kadar okuduğunuz için teşekkür ederim. Umarım her şey gönlünüzce olur. İyi çalışmalar dilerim.

--

--

Fuat Demirkol

Founder President of GBT / Senior Content Writer at Gamerpazar/ SoftHR / Huawei Turkey Content Editor /