4 - Öznitelik Çıkartımı, Öznitelik Dönüşümü ve Öznitelik Seçimi

Spark MLlib’de veri öznitelikleri ile ilişkin olarak sunulan işlemler ana hatlarıyla şöyledir:

Çıkarma

Ham verilerden öznitelikleri çıkarma

Dönüşüm

Öznitelikleri ölçekleme, dönüştürme veya değiştirme

Seçim

Daha büyük bir öznitelik kümesinden bir alt küme seçme

Yerellik Duyarlı Karma (Locality Sensitive Hashing (LSH))

Bu algoritma sınıfı, öznitelik dönüşümünün farklı yönlerini diğer algoritmalarla birleştirir.

Spark MLlib altında yukardaki her işlem başlığı için çeşitli metotlar sunulur.

Öznitelik çıkarmaya yönelik olarak TF-IDF, Word2Vec, CountVectorizer ve FeatureHashing metotlarını sağlar. Bu metotların her biri girdi olarak verilen veriden bir vektör oluşturmayı hedefler. Örneğin, FeatureHashing bir dizi kategorik veya sayısal özniteliği, belirtilen boyuttaki bir öznitelik vektörüne yansıtır.

Öznitelik dönüşümü için farklı tipte veriler üzerinde uygulanmak üzere geniş bir yelpazede metotlar sunulmaktadır. Örneğin metin verilerini sözcük ve diğer alt birimlere ayrıştırmak üzere Tokenizer metodu, sözcükleri elemek üzere StopWordsRemover metodu bulunmaktadır. Diğer bir örnek olarak sayısal veriler üzerinde uygulanmak üzere MinMaxScaler metodu sunulmuştur.

Öznitelik seçimi için VectorSlicer gibi verilen bir vektörün belirtilen alt kısmını çeken metotların yanı sıra ChiSqSelector givi Ki-kare testi gibi istatistiksel yaklaşımlara dayanan metotlar da desteklenmektedir.


Bu Türkçe notlar Prof. Pınar KARAGÖZ tarafından kaynak olarak Apache Spark web sitesindeki bilgilerden faydalanılarak hazırlanmıştır. Scala kodlama örnekleri aynı kaynaktan alınmıştır.