Veri Bilimi’ni Anlamak
 

Herkese Merhaba,

Bu yazımda sizlere gerek iş dünyasında gerek sosyal yaşamımızda sürekli olarak karşımıza çıkan veri kavramından, tanımından ve öneminden bahsetmek istiyorum.

Veri, herhangi bir işleme tabi tutulmadan, gözlem veya ölçüm yöntemleri ile ortamdan elde edilen her türlü değerdir. Bir verinin tek başına bir anlamı ve işlevi bulunmamaktadır. Ama bu veri bir araya getirilip işlenirse bu bilgi olur. Veriler gerçektir, verinin gerçek özellikleri vardır. Üzerinde çalışmak için onları incelememiz gerekir. Verilerin incelenmesi ,anlamlandırılması ve modellenmesi için Veri Bilimi ve Veri Bilimciler vardır.

Veri Bilimi karmaşık problemleri çözmek için hem yapılandırılmış hem de yapılandırılmamış veriyi, işe yarar/değerli bilgiye dönüştürmeye yarar. Bu süreçte, bilimsel problem çözme tekniklerini, matematiği, istatistiği ve yazılım geliştirme disiplinlerini birlikte kullanır. Kısacası veri bilimi veri çalışmasıdır. Aynı biyoloji biliminin biyoloji çalışması, fiziksel bilimlerin fiziksel reaksiyonları incelemesi gibi..

Veri Bilimciler ise verileri araştırarak kuruluşların bilgisine katkıda bulunmak için veri analizini kullanır ve işletmeye değer sağlamak için bu veriyi kullanmanın en iyi yolunu seçerler. Bu yüzden veri bilimcilerin meraklı, yargılayıcı, tartışmacı olmaları gerekir.

Bir veri bilimi projesinin serüvenlerinden bahsedecek olursak, kısaca şu şekilde özetleyebiliriz:

Problemi belirlemek : Çözmek istediğimiz problemi belirlememiz gerekir. Örneğin evimizi satmak istiyoruz ama ne kadar bedel belirtmemiz gerektiğini bilmiyoruz. Amacımız evimizin özelliklerini girdiğimizde bize fiyatını tahmin etmesi. İşte bu ihtiyaç veri bilimi projesinin ilk adımı oluyor.

Veri Manipülasyonu: Burada çeşitli veri kaynaklarından(Şirketlerin veri tabanları gibi) gerekli verilere eriştikten sonra bazı araçlar kullanarak (Mysql,hadoop,pandas,numpy gibi) veriyi istenilen formata getirmek. Yani verileri daha kolay okumak için veriyi değiştirmeye yönelik bir süreçtir.

Veri Ön İşleme: Bu süreçte de veriyi daha anlaşılır ve işlenebilir hale getirmek için bir takım yöntemler uygulanır.(Veri temizleme, veri indirgeme, veri standardizasyonu gibi)

Veri Analizi: Bu aşamada veri içerisindeki yapılar ortaya çıkarılmaya çalışılır. Örneğin elimizdeki ev ilanlarının ilanda kalma süreleri ne kadar?, ilandan kaç gün sonra ücretinde değişim olmuş?, hangi konumdaki evler daha çok talep görmüş?, ilanlar daha çok kiralık mı yoksa satılık mı ? gibi pek çok sorulunun cevabını makine öğrenimi algoritmaları kullanmadan bile görebiliriz.

Modelleme: Bu süreçte veri içerisinde yer alan yapıları algoritmalara öğretiyoruz optimizasyon tekniklerini kullanarak evimizin fiyatını tahmin ediyoruz.

Görsel olarak ise aşağıdaki gibi özetleyebiliriz;

 

Verinin önemine değinecek olursak dünyadaki en büyük şirketlerin gücünün veri bilimine dayandığını söyleyebiliriz. Yazımı The Economist’te yer alan bir makaledeki sözü paylaşarak sonlandırıyorum.

” Dünyanın en değerli kaynağı artık petrol değil, veri ”

Sevgiler.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir