İçeriğe atla

Temel bileşen analizi

Vikipedi, özgür ansiklopedi
Bir normal dağılımın temel bileşenleri oklar şeklinde gösterilmiştir.

İstatistikte, temel bileşen analizi (TBA), çok boyutlu uzaydaki bir verinin daha düşük boyutlu bir uzaya izdüşümünü, varyansı maksimize edecek şekilde bulma yöntemidir.[1] Uzayda bir noktalar kümesi için, tüm noktalara ortalama uzaklığı en az olan "en uygun doğru" seçilir. Daha sonra bu doğruya dik olanlar arasından yine en uygun doğru seçilerek, bu adımlar, yeni bir boyutun varyansı belirli bir eşiğin altına inene kadar tekrarlanır. Bu sürecin sonunda elde edilen doğrular, bir doğrusal uzayın tabanlarını oluşturur. Bu taban vektörlerine temel bileşen denir. Verinin temel bileşenleri birbirinden bağımsız olur.

Bu kavram bazen orijinal terimin kısaltması olan PCA (İngilizcePrincipal component analysis) olarak da anılır.

TBA'nın ana kullanım amaçları keşifsel veri analizi[2] yapmak ve kestirimsel modeller[3] oluşturmaktır. Genetikte, iki nüfus arasındaki yakınlığı ve benzerliği görselleştirmek için kullanılır.

TBA'nın Tarihçesi

[değiştir | kaynağı değiştir]

Temel bileşen analizi, 1901 yılında Karl Pearson tarafından geliştirilen ve daha sonra 1930'larda Harold Hotelling tarafından genişletilen bir tekniktir.[4] TBA, istatistik ve makine öğrenmesi alanlarında yaygın olarak kullanılır ve veri indirgeme, görüntü işleme, yüz tanıma, genetik analiz gibi birçok alanda uygulanır.

Matematiksel Temelleri

[değiştir | kaynağı değiştir]

TBA, doğrusal cebir ve istatistiksel kavramlara dayanmaktadır. Temel bileşenler, verinin kovaryans matrisinin özvektörleridir. Bu özvektörler, veri setinin en büyük varyansını açıklayan doğrultulardır. İlk temel bileşen, veri setinin en büyük varyansını kapsar ve her bir sonraki bileşen, bir önceki bileşene dik olacak şekilde, kalan en büyük varyansı kapsar.

Uygulama Alanları

[değiştir | kaynağı değiştir]
  1. Keşifsel Veri Analizi: TBA, veri setindeki önemli desenleri ve ilişkileri ortaya çıkarmak için kullanılır.[5]
  2. Boyut İndirgeme: Yüksek boyutlu veri setlerinin boyutunu azaltarak, veri işleme ve görselleştirme işlemlerini kolaylaştırır.
  3. Görüntü İşleme: TBA, görüntülerin sıkıştırılması ve yüz tanıma sistemlerinde kullanılır.[6]
  4. Genetik Analiz: Genetik verilerde, popülasyonlar arası farklılıkları ve benzerlikleri incelemek için kullanılır.
  5. Finans: Portföy optimizasyonu ve risk yönetimi gibi finansal uygulamalarda kullanılır.

TBA'nın Avantajları ve Dezavantajları

[değiştir | kaynağı değiştir]

Avantajları:

  • Boyut indirgeme ile hesaplama maliyetini düşürür.
  • Verideki önemli desenleri ortaya çıkarır.
  • Gürültüyü azaltarak model performansını artırabilir.

Dezavantajları:

  • Yalnızca doğrusal ilişkileri yakalayabilir.
  • Veri normalleştirilmediğinde, sonuçlar yanıltıcı olabilir.
  • TBA'nın sonuçları, verinin ölçüm birimlerine duyarlıdır.[7]

TBA'nın Hesaplanması

[değiştir | kaynağı değiştir]

TBA, genellikle şu adımlarla hesaplanır:

  1. Veri Standardizasyonu: Verinin ortalaması çıkarılır ve verinin varyansı ile ölçeklendirilir.
  2. Kovaryans Matrisinin Hesaplanması: Verinin kovaryans matrisi hesaplanır.
  3. Özdeğer ve Özvektörlerin Bulunması: Kovaryans matrisinin özdeğerleri ve özvektörleri hesaplanır.
  4. Yeni Öz Uzayına Dönüşüm: Veriler, seçilen özvektörlerle yeni bir alt uzaya projekte edilir.
  1. ^ {{Kitap kaynağı |soyadı1=Alpaydin |ad1=Ethem |başlık=Introduction to machine learning |url=https://archive.org/details/introductiontoma00alpa_135 |tarih=2010 |yayıncı=MIT Press |isbn=978-0-262-01243-0 |sayfalar=113-120|basım=2.2
  2. ^ Yücel, Fatih (2009). "Temel Bileşenler Yöntemiyle Türk Sermaye Piyasası Gelişiminin Ekonomik Büyüme Üzerine Etkilerinin Bir Analizi" (PDF). Sosyoekonomi, 1. doi:10.38155/ksbd.668703. ISSN 1309-081X. 20 Aralık 2018 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Temmuz 2020. 
  3. ^ Işul Yazar; Hasan Serhan Yavuz; Mehmet Atıf Çay (2009). "Temel Bileşen Analizi Yönteminin ve Bazı Klasik ve Robust Uyarlamalarının Yüz Tanıma Uygulamaları". Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, 1. s. 49-63. Erişim tarihi: 23 Temmuz 2020. 
  4. ^ Pearson, Karl (Kasım 1901). "LIII. On lines and planes of closest fit to systems of points in space". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2 (11): 559-572. doi:10.1080/14786440109462720. ISSN 1941-5982. 
  5. ^ Turk, Matthew; Pentland, Alex (1 Ocak 1991). "Eigenfaces for Recognition". Journal of Cognitive Neuroscience. 3 (1): 71-86. doi:10.1162/jocn.1991.3.1.71. ISSN 0898-929X. 
  6. ^ Fama, Eugene F.; French, Kenneth R. (Haziran 1992). "The Cross-Section of Expected Stock Returns". The Journal of Finance. 47 (2): 427. doi:10.2307/2329112. ISSN 0022-1082. 
  7. ^ Abdi, Hervé; Williams, Lynne J. (Temmuz 2010). "Principal component analysis". WIREs Computational Statistics. 2 (4): 433-459. doi:10.1002/wics.101. ISSN 1939-5108.