Abstract:
Metin madenciliği metni veri kaynağı olarak dikkate alan veri madenciliği çalışmasıdır.
Metin madenciliği düzensiz metinlerden oluştuğundan veri madenciliği algoritmaları ile
yaklaşmak mümkündür. Asıl fark düzensiz metinleri anlamlı bir düzene oturtmaktır. Bu
sebeple belirli bir düzene yaklaştırılan metinler üzerinde veri madenciliği yapmak
kolaylaşmaktadır. Zor olan ise kaynaklar toplayıp derlemek ve anlamlı sayısal ifadelere
çevirebilmektir.
Projedeki amaç müşteri şikâyetlerini anlamlandırıp ölçümlemektir. Projede GSM
firmaları dikkate alınmıştır. Sonraki süreçte ise hedef öğrenci yazılılarını okumaktır.
Öğrencilere sınavlarına uygulanacak metin madenciliği çalışması ise farklı bir uzmanlık
gerektirmektedir. Sözlük yaklaşımında olduğu gibi her soru için kategori ve kategori
altındaki ağırlıklı kelimeler bu uzmanlar tarafından belirlenmelidir. Doğru sözlük tablosu
oluşturulduğunda yazılım hızla değerlendirmesini yapacaktır. Milyonlarca öğrencinin
cevap kâğıdının okunduğunu düşünürsek yazılımın milyonlarca işlem karşısında
yorgunluk ve dikkatsizlik gibi davranışlarda bulunması beklenemez.
Sonuç olarak milyonlarca iş yükünün altında bile metin madenciliği yaklaşım projesinin
eşit, adil ve hızlı bir değerlendirme yapacağı aşikârdır.