dc.description.abstract |
Bu tez çalışması Parkinson Hastalığı (PH) verilerine Makine Öğrenmesi
algoritmalarının uygulanması üzerinedir. Bu amaçla özgün olarak yeni bir Makine
Öğrenmesi algoritması tasarımına gidildi. Bu tasarım sonucunda; karar kaynaştırma
ve sınıflandırıcı seçimi yöntemlerine dayalı olarak VIBES isminde yeni bir topluluk
öğrenme algoritması geliştirilmiştir. VIBES algoritması ve diğer Makine Öğrenmesi
algoritmaları UCI veritabanından seçilen 33 adet benchmark veri kümesine ve
PhysioNet veritabanından elde edilen Parkinson verikümesine uygulandı.
VIBES algoritması iki varsayımdan birinin tercih edilmesine göre çalışmaktadır. Bu
varsayımlar: Özniteliklerin birbirlerine bağımlı olduğu ve bağımsız olduğu
varsayımlardır. Bu varsayımlara göre 33 benchmark veri kümesi üzerindeki ortalama
doğruluk oranları sırasıyla %89.80 ve %88.22‘dir. Benchmark veri kümeleri
üzerindeki ikinci en iyi ortalamaya sahip öğrenme algoritması %87.76 doğruluk
oranıyla Rotation Forest algoritmasıdır. Her iki topluluk öğrenme algoritması için
kullanılan ortak temel öğrenici Random Forests (RF) algoritmasıdır. VIBES
algoritmasında topluluk birleştirme yöntemi için çoğunluk oylama yöntemi
kullanılmış ve sadece ikili sınıflandırma problemleri için çoğunluk oylama
yönteminin diğer yöntemlere göre daha iyi olduğu sadece teorik olarak gösterilmiştir.
VIBES(RF) algoritmasında hipotez arama algoritması olarak optimize edilmiş ileri
yönlü bir arama yöntemi ve Genetik Algoritmalar (GA) yöntemi kullanılmıştır. 33
adet benchmark veri kümesi üzerindeki sonuçlara göre optimize edilmiş ileri yönlü
arama algoritması ortalama %89.6963 doğruluk oranı ve ortalama 3.2359 saniyelik
arama zamanı ile GA yöntemine göre daha iyi sonuç vermiştir. GA yöntemiyle,
%89.4184 doğruluk oranı ve ortalama 127.6958 saniyelik arama zamanı elde
edilmiştir. Buna göre doğruluk oranları arasında çok ciddi bir fark olmamasına
rağmen optimize edilmiş ileri yönlü arama algoritması GA‘ya göre daha az sürede
aramalar gerçekleştirerek topluluğu oluşturmuştur. VIBES(RF) algoritmasında
özniteliklerin enformasyon miktarını ölçmek için iki yöntem kullanılmıştır. Bunlar:
ReliefF ve Shannon entropidir. Bu iki algoritmanın ortalama doğruluk oranları
sırasıyla %89.8153 ve %89.0519‘dur. Bu iki sonuç istatistiksel açıdan önemli bir
farka sahip olmadığı ve Shannon entropi diğer yönteme kıyasla daha hızlı çalıştığı
için enformasyon ölçüm yöntemi olarak Shannon entropi, özniteliklerin bilgi miktarı
ölçümü için varsayılan metot olarak ayarlanmıştır. Bu tez çalışmasında, çoğunluk
oylamalı topluluk öğrenicilerde oluşturulan topluluğun gerçek hata oranını tahmin
etmek için de veri uyarlamalı bir yöntem geliştirilmiştir. Bu yönteme göre 33 adet
benchmark veri kümesi üzerinde özniteliklerin bağımlılığı varsayımına göre gerçek
ve tahmini hata oranları arasındaki fark %0.575‘tir. Özniteliklerin bağımsızlığı
varsayımına göre gerçek ve tahmini hata oranlarının farkı ise %1.655‘tir. Böylelikle
her iki varsayımın ortalama hata oranı %1.115 olur. Tüm bu veriler ışığında hata
tahmin yönteminin gerçek hata oranına oldukça yakın sonuçlar verdiği söylenebilir.
xxxii
Parkinson veri kümesi kullanılarak öznitelik oluşturmak için Fast Fourier Dönüşümü
(FFD), Dalgacık dönüşümü (Haar, sym2, coif2, db2, db3, db4, db5, db6, db7, dmey,
bio3.3 ve gaus2) ve Hilbert-Huang Dönüşümü (HHD) kullanılmıştır. Bu sinyal
dönüşüm yöntemleri içerisinden HHD ile oluşturulmuş öznitelik kümesi üzerinde
hem VIBES algoritması hem de diğer Makine Öğrenmesi algoritmaları yüksek
doğruluk oranları vermiştir. Daubechies (db3) dalgacığı kullanılarak elde edilen
öznitelik kümesi ikinci en iyi sınıflandırma doğruluğu veren sinyal dönüşüm yöntemi
olmuştur. HHD kullanılarak oluşturulan Parkinson veri kümesine VIBES(KA)
algoritmasının (özniteliklerin bağımsızlığı varsayımına); 2-katlı çapraz doğrulama, 5-
katlı çapraz doğrulama, 10-katlı çapraz doğrulama ve Leave-One-Out-Çapraz-
Doğrulama (LOOÇD) testlerinin 10 kere uygulanması sonucunda sırasıyla
%95.4545±1.0785, %95.9394±1.3717, %95.4545±0.7693 ve %97.5758±0.0000
ortalama sınıflandırma doğrulukları elde edilmiştir. Bu testlerin ortalama
sınıflandırma doğruluğu oranı ise %96.1061‘dir. Bu deneylerin sonucunda LOOÇD
yöntemi kullanılarak elde edilen topluluk hipotezi model olarak seçilmiştir. Bu
model 14 temel hipotezden oluşmaktadır. Sonuç olarak literatürde daha önce yapılan
6 çalışmadan daha yüksek oranda sınıflandırma doğruluğu elde edilmiştir. |
tr_TR |
dc.description.abstractol |
This study is on Machine Learning algorithms applied to the Parkinson‘s Disease
data. For this purpose, we planned developing a new and authentic Machine
Learning algorithm. In this process; we developed a new Ensemble Learning
algorithm, called VIBES, based on the Decision Fusion and the Classifier Selection
methods. VIBES algorithm and other Machine Learning algorithms were applied to
33 benchmark datasets selected from UCI database and to Parkinson‘s Disease
dataset selected from PhysioNet database.
VIBES algorithm operates according to two assumptions: that features are
interdependent, and that features are independent of each other. According to these
assumptions, average accuracy rates for 33 benchmark datasets are 89.80% and
88.22% respectively. The learning algorithm with the second best average accuracy
is Rotation Forest algorithm, with 87.76% accuracy rate. The base learner used for
both ensemble learning algorithms mentioned above is the Random Forests
algorithm. We used the majority voting method as ensemble combination method for
the VIBES algorithm, and only theoretically demonstrated that the majority voting
method is better in comparison with other methods for only binary classification
problems. We used an optimized forward search method and Genetic Algorithms as a
hypothesis search algorithm for VIBES(RF) algorithm. According to the results
regarding 33 benchmark datasets, the optimized forward search algorithm, with an
average accuracy rate of 89.6963% and a search time of 3.2359 seconds, gave a
better result in comparison with Genetic Algorithms. We got 89.4184% accuracy rate
and 127.6958-second search time by using Genetic Algorithms. According to these
results, the optimized forward search algorithm built the ensemble by doing the
search in less time compared to Genetic Algorithms, although their accuracy rates
were not significantly different. In measuring the amount of information of features
in VIBES(RF) algorithm, we used two methods: ReliefF and Shannon entropy. The
average accuracy rates of these algorithms are 89.8153% and 89.0519% respectively.
We set Shannon entropy as a default method to measure the amount of information
of features because of the fact that these two rates do not have a statistically
significant difference and that Shannon entropy runs faster in comparison with
ReliefF. In this thesis study, we developed a data-adaptive method to also predict the
actual error rate of the ensemble built for ensemble learning with majority voting
method. The difference between actual and predicted error rates is 0.575% in average
for 33 benchmark datasets according to the method mentioned above and the
assumption of feature interdependency, whereas it is 1.655% in average according to
the assumption of feature independency. Thus, we have an average error rate of
1.115%. In light of these data, we can say that the error predicting method gives
quite close results in relation to actual error rate.
We used Fast Fourier Transform, Wavelet Transform (haar, sym2, db2, db3, db4,
db5, db6, db7, dmey, bio3.3, and gaus2), and Hilbert-Huang Transform so as to
xxxiv
create features for the Parkinson dataset. Both the VIBES algorithm and the other
Machine Learning algorithms gave high classification accuracy for a set of features
that was created by Hilbert-Huang Transform method. Besides, a set of features
created through daubechies (db3) wavelet was a signal transform method that got the
second best classification accuracy. When the VIBES(KA) algorithm (the assumption
of the independency of features) was applied to the Parkinson dataset created using
Hilbert-Huang Transform, and when 2-fold, 5-fold, 10-fold, and Leave-One-Out
cross validations were applied to the dataset ten times, we received an average
classification accuracy rate of 95.4545%±1.0785, 95.9394%±1.3717,
95.4545%±0.7693, and 97.5758%±0.0000 respectively. The average classification
accuracy rate of these experiments is 96.1061%. Based on the results of our
experiments, we selected as our model the ensemble hypothesis obtained using the
Leave-One-Out cross validation method. This model consists of the hipotheses of 14
base learners. Consequently, we obtained a superior classification accuracy in
comparison with six studies currently available in literature. |
tr_TR |