Abstract:
Yapısal olmayan veriler önceden tanımlanmış bir veri modeli içermediği için
düzensizdir. İnternet ortamında yapısal olmayan metinsel dokümanların artması ile
birlikte bu dokümanların yönetilebilirliği de zorlaşmıştır. Sınıf etiketinden yoksun bir
şekilde her geçen gün sürekli artan verinin doğru olarak manuel bir şekilde
etiketlenmesi oldukça zordur. Bu zorluğu kolaylaştırmak için yapay zeka
yöntemlerinin kullanılması gerekmektedir. Araştırmacılar bu zamana kadar bir çok
makine öğrenimi ve derin öğrenme modelini farklı türde veriler üzerinde uygulamıştır.
Bu modellerin başarılı olarak çalışmasında verinin eğitim için düzgün hale getirilmesi
oldukça önemlidir. Bu aşamada veri içerisinden eğitim için anlam ifade etmeyen
sözcüklerin çıkarılması ve eğitimin daha iyi yapılmasını sağlamak amacıyla veri
üzerinde çeşitli yöntemler uygulanır. Burada yapılacak detaylı çalışmalar modelin
başarısına doğrudan etki etmektedir. Bunun yanı sıra öznitelik sayısının fazla olması
ve vektör uzayının büyüklüğü hem model başarısını hem de performansı
etkilemektedir. Ayrıca sınıf etiketinin fazla olması da eğitimi zorlaştırmaktadır.
Yapılan literatür araştırmasında sınıf etiketinin az ve veri sayısının fazla olduğu
araştırmalar daha fazla olduğu görülmüştür. Makine öğrenimi ve derin öğrenme
modelleri ile veri sayısının fazla olduğu ve sınıf etiketinin az olduğu veriler üzerinde
daha kolay öğrenme gerçekleştirilip, daha başarılı sonuçlar alınabilmektedir. Ancak
veri sayısının daha az, sınıf etiketinin ise fazla ve dengesiz olduğu durumlarda
öğrenme zorlaşmaktadır. Bir de bunlar yapısal olmayan metinsel veriler ise öğrenme
daha da zorlaşmaktadır. Bu tez çalışmasında yapısal olmayan ve 7 sınıf içeren haber
verisi kullanılarak, sınıflandırma başarısını artırmaya yönelik deneysel çalışmalar
yapılmıştır. Çalışmada detaylı veri önişleme yapıldıktan sonra farklı kelime temsil
yöntemleri ile makine öğrenimi ve derin öğrenme sınıflandırma yöntemleri ile model
başarısı ölçülmüştür. Ayrıca WordNet ontolojisi de kullanılarak kelimeler anlamsal
viii
yönden de değerlendirilip, öznitelik boyut indirgemesi de yapılmıştır. Yapılan
çalışmalar sonucunda metin sınıflandırma probleminde çok sayıda, dengesiz sınıf
etiketi olan ve az sayıda veri üzerinde yüksek doğrulukta sınıflandırma yapan ontoloji
ve derin öğrenme tabanlı hibrit bir yaklaşım önerilmiştir. WordNet ontolojisi ve BERT
kullanılarak sağlanan çözüm önerisi özgün olup, yapısal olmayan metinsel
dokümanların sınıflandırılmasında bir yol gösterici olmaktadır.