Destek vektör makinesi

Tarihçe ve Gelişim

Destek vektör makineleri (DVM), 1992 yılında Vladimir Vapnik ve meslektaşı Alexey Chervonenkis tarafından geliştirilmiştir. Başlangıçta iki sınıfı ayırmak için doğrusal sınıflandırıcılar olarak tasarlanan DVM'ler, daha sonra kernel yöntemleri kullanılarak doğrusal olmayan sınıflandırma problemlerine de uygulanabilir hale gelmiştir.[1][2]

Destek Vektör Makinesi (DVM)

Destek vektör makinesi (kısaca DVM), makine öğreniminde kullanılan güçlü bir sınıflandırma yöntemidir. Bu yöntem, eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı (hiper düzlem) bulan vektör uzayı tabanlı bir yaklaşımdır. DVM, hem doğrusal hem de doğrusal olmayan veri kümeleri için etkili bir şekilde çalışabilir ve kernel yöntemleri kullanarak veri kümelerinin üst özellik uzaylarında sınıflandırma yapabilir. Bu sayede, karmaşık veri yapılarını bile başarılı bir şekilde sınıflandırma yeteneğine sahiptir.[3][4]

Uygulama Alanları

Destek vektör makineleri, birçok farklı alanda başarılı bir şekilde uygulanmaktadır. Yaygın uygulama alanlarından bazıları şunlardır:

Biyoinformatik: Gen ekspresyon verilerinin sınıflandırılması.

Finans: Kredi riskinin değerlendirilmesi ve dolandırıcılık tespiti.

Pazarlama: Müşteri segmentasyonu ve davranış tahmini.

Görüntü İşleme: Yüz tanıma ve nesne tespiti.[5][6][7]

Performans Karşılaştırmaları

Destek vektör makineleri, özellikle yüksek boyutlu ve küçük veri kümelerinde iyi performans gösterir. Diğer makine öğrenme yöntemleriyle karşılaştırıldığında, DVM'nin avantajları şunlardır:

Genel Performans: DVM, genellikle yüksek doğruluk oranlarına sahiptir.

Genelleme Yeteneği: Marjin maksimizasyonu, modelin genelleme yeteneğini artırır.

Hız: Büyük veri kümeleri için eğitim süresi uzun olabilir, ancak test süresi hızlıdır.

DVM'nin dezavantajları ise şunlardır:

Hesaplama Maliyeti: Kernel yöntemleri kullanıldığında hesaplama maliyeti artabilir.

Model Seçimi: Doğru kernel ve hiperparametrelerin seçimi zor olabilir.[8][9]

Makine öğrenmesi ve
veri madenciliği
Problemler
  • BIRCH
  • Hiyerarşik
  • k-means
  • Beklenti maksimizasyon

  • DBSCAN
  • OPTICS
  • Mean-shift
Boyut indirgeme
  • Faktör analizi
  • CCA
  • ICA
  • LDA
  • NMF
  • PCA
  • t-SNE
Yapılandırılmış tahmin
  • k-NN
  • Local outlier factor
  • Q-Learning
  • SARSA
  • Temporal Difference (TD)
Teori
  • Bias-variance ikilemi
  • Hesaplamalı öğrenme teorisi
  • Empirik risk minimizasyonu
  • Occam learning
  • PAC learning
  • İstatistiki öğrenme teorisi
  • VC theory
Konferanslar ve dergiler
  • NIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG
  • g
  • t
  • d

Destek vektör makinesi (kısaca DVM), eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı bulan vektör uzayı tabanlı makine öğrenme yöntemi olarak tanımlanabilir.[10]

==

x i {\displaystyle x_{i}} ile temsil edilen her girdi, D özelliğine sahip olsun ve sadece y i {\displaystyle y_{i}} = -1 ya da +1 sınıflarından birine ait olsun, bu durumda tüm girdileri şöyle gösterebiliriz:

{ x i , y i } | i = 1 L , y i { 1 , 1 } , x D {\displaystyle \{x_{i},y_{i}\}|i=1\ldots L,y_{i}\in \{-1,1\},x\in \Re ^{D}}
Doğrusal olmayan veri kümesinin DVM ile sınıflandırılması

Veri kümeleri

Doğrusal ayrışabilen ve doğrusal ayrılamayan iki ayrı veri seti

Kernel yöntemleri

Veri kümesinin doğrusal olarak sınıflandırılması mümkün olmayan durumlarda, her bir verinin üst özellik uzayıyla eşlenmesi ve yine bu yeni uzayda bir hiper düzlem yardımıyla sınıflandırılması yöntemine verilen isimdir.

Radial Basis Function (RBF) Kernel

K ( x , y ) = e γ | x y | 2 {\displaystyle K(x,y)=e^{\gamma |x-y|^{2}}}

Çok terimli (Polinomial) Kernel

K ( x , y ) = ( x y + 1 ) n {\displaystyle K(x,y)={(x\cdot y+1)}^{n}}

Çok sınıflı verinin DVM ile sınıflandırılması

Destek vektör makineleri daha çok iki sınıftan olusan (binary classification) veriyi ayırmada kullanılmaktadır, örneğin bir veri kümesindeki her bir veriyi kadın veya erkek olarak ayırmak. Buna karşın veriler bazen ikiden fazla sınıfa ait olabilirler bu gibi durumlarda temel DVM algoritması işlevsiz bir hale gelir. Örneğin farklı cinsten olan köpeklerin belli başlı özelliklerinin tutulduğu bir veri kümesinin bu özellikleri baz alarak sınıflandırılması gibi Golden Retriever, Siberian Husky, German Shepherd, Pug vb.[11]

Bire çok yaklaşım

Genel anlamda sınıf sayısı kadar DVM'nin birbirine füzyonuyla elde edilir. Her DVM çıkan her bir sınıfı diğer sınıflarla karşılaştırarak bir sonuca ulaşır. Eğer N {\displaystyle N} kadar sınıf varsa N {\displaystyle N} sayıda DVM eğitilerek bu DVM'lerin birbiriyle kıyaslanarak hangi sınıf için en güvenilir sonucun çıktığına bakılarak sınıflandırma yapılır.

f ( x ) = a r g max i f i ( x ) {\displaystyle f(x)=arg\max _{i}f_{i}(x)}
x {\displaystyle x} girdi vektörü olmakla beraber i {\displaystyle i} sınıfı temsil etmektedir.

Bire bir yaklaşım

Bire bir yönteminde her bir sınıf ikilisi için farklı bir DVM eğitilir ve eğitilen DVM'lerden hangi sınıfın en çok "+1" olarak sınıflandırıldığına bakılır ve böylece sınıflandırma işlemi gerçekleştirilir. Bu yöntem bire çok yöntemine göre hesaplama gücü yönünden oldukça "pahalı" bir yöntemdir. Bunun sebebi, eğer N {\displaystyle N} kadar sınıf varsa bu durumda N ( N 1 ) 2 {\displaystyle {N(N-1) \over 2}} sayıda DVM eğitilmesi gerekmesidir.

f ( x ) = a r g max i ( j f i j ( x ) ) {\displaystyle f(x)=arg\max _{i}{\Bigl (}\sum _{j}f_{ij}(x){\Bigr )}}
x {\displaystyle x} girdi vektörü olmakla beraber i {\displaystyle i} ve j {\displaystyle j} sınıfları temsil etmektedirler.

Otorite kontrolü Bunu Vikiveri'de düzenleyin
  • BNF: cb16627142b (data)
  • GND: 4505517-8
  • LCCN: sh2008009003
  • NKC: ph606738
  • NLI: 987007539991605171

Kaynakça

  1. ^ Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer.
  2. ^ Vapnik, V., & Chervonenkis, A. (1964). A Note on One Class of Perceptrons. Automation and Remote Control, 25, 103-110.
  3. ^ Cortes, Corinna; Vapnik, Vladimir (Eylül 1995). "Support-vector networks". Machine Learning. 20 (3): 273-297. doi:10.1007/bf00994018. ISSN 0885-6125. 
  4. ^ Burges, Christopher J.C. (1998). Data Mining and Knowledge Discovery. 2 (2): 121-167. doi:10.1023/a:1009715923555. ISSN 1384-5810 http://dx.doi.org/10.1023/a:1009715923555.  Eksik ya da boş |başlık= (yardım)
  5. ^ Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3), 389-422.
  6. ^ Kim, K. J. (2003). Financial time series forecasting using support vector machines. Neurocomputing, 55(1-2), 307-319.
  7. ^ Osuna, E., Freund, R., & Girosi, F. (1997). Training support vector machines: an application to face detection. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 130-136.
  8. ^ Ben-Hur, A., & Weston, J. (2010). A User's Guide to Support Vector Machines. Methods in Molecular Biology, 609, 223-239.
  9. ^ Steinwart, I., & Christmann, A. (2008). Support Vector Machines. Springer.
  10. ^ SCHLKOPF, BERNHARD. (2018). LEARNING WITH KERNELS : support vector machines, regularization, optimization, and beyond. [Place of publication not identified],: MIT Press. ISBN 0-262-53657-9. OCLC 1039411838. 
  11. ^ Computational intelligence paradigms in advanced pattern classification. Ogiela, Marek R., Jain, L. C. Berlin: Springer. 2012. s. 179. ISBN 978-3-642-24049-2. OCLC 773925178.