Temel bileşen analizi

Bir normal dağılımın temel bileşenleri oklar şeklinde gösterilmiştir.

İstatistikte, temel bileşen analizi (TBA), çok boyutlu uzaydaki bir verinin daha düşük boyutlu bir uzaya izdüşümünü, varyansı maksimize edecek şekilde bulma yöntemidir.^[1] Uzayda bir noktalar kümesi için, tüm noktalara ortalama uzaklığı en az olan "en uygun doğru" seçilir. Daha sonra bu doğruya dik olanlar arasından yine en uygun doğru seçilerek, bu adımlar, yeni bir boyutun varyansı belirli bir eşiğin altına inene kadar tekrarlanır. Bu sürecin sonunda elde edilen doğrular, bir doğrusal uzayın tabanlarını oluşturur. Bu taban vektörlerine temel bileşen denir. Verinin temel bileşenleri birbirinden bağımsız olur.

Bu kavram bazen orijinal terimin kısaltması olan PCA (İngilizce: Principal component analysis) olarak da anılır.

TBA'nın ana kullanım amaçları keşifsel veri analizi^[2] yapmak ve kestirimsel modeller^[3] oluşturmaktır. Genetikte, iki nüfus arasındaki yakınlığı ve benzerliği görselleştirmek için kullanılır.

TBA'nın Tarihçesi

Temel bileşen analizi, 1901 yılında Karl Pearson tarafından geliştirilen ve daha sonra 1930'larda Harold Hotelling tarafından genişletilen bir tekniktir.^[4] TBA, istatistik ve makine öğrenmesi alanlarında yaygın olarak kullanılır ve veri indirgeme, görüntü işleme, yüz tanıma, genetik analiz gibi birçok alanda uygulanır.

Matematiksel Temelleri

TBA, doğrusal cebir ve istatistiksel kavramlara dayanmaktadır. Temel bileşenler, verinin kovaryans matrisinin özvektörleridir. Bu özvektörler, veri setinin en büyük varyansını açıklayan doğrultulardır. İlk temel bileşen, veri setinin en büyük varyansını kapsar ve her bir sonraki bileşen, bir önceki bileşene dik olacak şekilde, kalan en büyük varyansı kapsar.

Uygulama Alanları

Keşifsel Veri Analizi: TBA, veri setindeki önemli desenleri ve ilişkileri ortaya çıkarmak için kullanılır.^[5]
Boyut İndirgeme: Yüksek boyutlu veri setlerinin boyutunu azaltarak, veri işleme ve görselleştirme işlemlerini kolaylaştırır.
Görüntü İşleme: TBA, görüntülerin sıkıştırılması ve yüz tanıma sistemlerinde kullanılır.^[6]
Genetik Analiz: Genetik verilerde, popülasyonlar arası farklılıkları ve benzerlikleri incelemek için kullanılır.
Finans: Portföy optimizasyonu ve risk yönetimi gibi finansal uygulamalarda kullanılır.

TBA'nın Avantajları ve Dezavantajları

Avantajları:

Boyut indirgeme ile hesaplama maliyetini düşürür.
Verideki önemli desenleri ortaya çıkarır.
Gürültüyü azaltarak model performansını artırabilir.

Dezavantajları:

Yalnızca doğrusal ilişkileri yakalayabilir.
Veri normalleştirilmediğinde, sonuçlar yanıltıcı olabilir.
TBA'nın sonuçları, verinin ölçüm birimlerine duyarlıdır.^[7]

TBA'nın Hesaplanması

TBA, genellikle şu adımlarla hesaplanır:

Veri Standardizasyonu: Verinin ortalaması çıkarılır ve verinin varyansı ile ölçeklendirilir.
Kovaryans Matrisinin Hesaplanması: Verinin kovaryans matrisi hesaplanır.
Özdeğer ve Özvektörlerin Bulunması: Kovaryans matrisinin özdeğerleri ve özvektörleri hesaplanır.
Yeni Öz Uzayına Dönüşüm: Veriler, seçilen özvektörlerle yeni bir alt uzaya projekte edilir.

Kaynakça

^ {{Kitap kaynağı |soyadı1=Alpaydin |ad1=Ethem |başlık=Introduction to machine learning |url=https://archive.org/details/introductiontoma00alpa_135 |tarih=2010 |yayıncı=MIT Press |isbn=978-0-262-01243-0 |sayfalar=113-120|basım=2.2
^ Yücel, Fatih (2009). "Temel Bileşenler Yöntemiyle Türk Sermaye Piyasası Gelişiminin Ekonomik Büyüme Üzerine Etkilerinin Bir Analizi" (PDF). Sosyoekonomi, 1. doi:10.38155/ksbd.668703. ISSN 1309-081X. 20 Aralık 2018 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Temmuz 2020.
^ Işul Yazar; Hasan Serhan Yavuz; Mehmet Atıf Çay (2009). "Temel Bileşen Analizi Yönteminin ve Bazı Klasik ve Robust Uyarlamalarının Yüz Tanıma Uygulamaları". Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, 1. s. 49-63. Erişim tarihi: 23 Temmuz 2020.
^ Pearson, Karl (Kasım 1901). "LIII. On lines and planes of closest fit to systems of points in space". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2 (11): 559-572. doi:10.1080/14786440109462720. ISSN 1941-5982.
^ Turk, Matthew; Pentland, Alex (1 Ocak 1991). "Eigenfaces for Recognition". Journal of Cognitive Neuroscience. 3 (1): 71-86. doi:10.1162/jocn.1991.3.1.71. ISSN 0898-929X.
^ Fama, Eugene F.; French, Kenneth R. (Haziran 1992). "The Cross-Section of Expected Stock Returns". The Journal of Finance. 47 (2): 427. doi:10.2307/2329112. ISSN 0022-1082.
^ Abdi, Hervé; Williams, Lynne J. (Temmuz 2010). "Principal component analysis". WIREs Computational Statistics. 2 (4): 433-459. doi:10.1002/wics.101. ISSN 1939-5108.

[alpaydin-1] {{Kitap kaynağı |soyadı1=Alpaydin |ad1=Ethem |başlık=Introduction to machine learning |url=https://archive.org/details/introductiontoma00alpa_135 |tarih=2010 |yayıncı=MIT Press |isbn=978-0-262-01243-0 |sayfalar=113-120|basım=2.2

[2] Yücel, Fatih (2009). "Temel Bileşenler Yöntemiyle Türk Sermaye Piyasası Gelişiminin Ekonomik Büyüme Üzerine Etkilerinin Bir Analizi" (PDF). Sosyoekonomi, 1. doi:10.38155/ksbd.668703. ISSN 1309-081X. 20 Aralık 2018 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Temmuz 2020.

[3] Işul Yazar; Hasan Serhan Yavuz; Mehmet Atıf Çay (2009). "Temel Bileşen Analizi Yönteminin ve Bazı Klasik ve Robust Uyarlamalarının Yüz Tanıma Uygulamaları". Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, 1. s. 49-63. Erişim tarihi: 23 Temmuz 2020.

[4] Pearson, Karl (Kasım 1901). "LIII. On lines and planes of closest fit to systems of points in space". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2 (11): 559-572. doi:10.1080/14786440109462720. ISSN 1941-5982.

[5] Turk, Matthew; Pentland, Alex (1 Ocak 1991). "Eigenfaces for Recognition". Journal of Cognitive Neuroscience. 3 (1): 71-86. doi:10.1162/jocn.1991.3.1.71. ISSN 0898-929X.

[6] Fama, Eugene F.; French, Kenneth R. (Haziran 1992). "The Cross-Section of Expected Stock Returns". The Journal of Finance. 47 (2): 427. doi:10.2307/2329112. ISSN 0022-1082.

[7] Abdi, Hervé; Williams, Lynne J. (Temmuz 2010). "Principal component analysis". WIREs Computational Statistics. 2 (4): 433-459. doi:10.1002/wics.101. ISSN 1939-5108.

[1]

[2]

[3]

[4]

[5]

[6]

[7]