Dijitalleşen Dünyada Bilginin Keşfi: Veri Madenciliği

5 dk okuma süresi


13
14 Paylaşım, 13 puan

Veri, Yuval Noah Harari’ye göre modern dünyayı anlamanın ilk koşulu ve geleceğin hammaddesi. Endüstri çağında nasıl makineler insanların yerini aldıysa, bugün de veriler makinelerin yerini alıyor. Gücün, geleceğin ve teknolojinin yönü makinelerin çoğunluğunu barındıranlara değil, bilginin, verinin ve istatistiğin dilini anlayabilenlere doğru dönüyor. Ancak verinin dilini anlamak hiç kolay değil. Veri birikintileri parçalara ayrılarak ve detaylandırılarak çözümlenmediğinde içinden bir anlam çıkarmanın mümkün olmadığı bir karmaşaya dönüşüyorlar. İşte tam bu noktada veri madenciliği devreye giriyor. Veriyi işleme sanatı olarak da nitelendirebileceğimiz bu kavram, her gün yeni teknikler ve metodolojilerle geliştirilerek “geleceğin ortak dili” olmak üzere genişliyor. Dijitalleşen dünyada bilginin yeniden keşfi ile ortaya çıkan veri madenciliği kavramını 10 maddede inceledik. İyi okumalar dileriz.

1. Veri Madenciliğinin Temel Amacı

Dijitalleşen Dünyada Bilginin Keşfi Veri Madenciliği

Veri madenciliği, temelde yazılımlar ve araştırmalar yoluyla milyarlarca veriyi elde etmeyi başaran kurumların öğrenmek istedikleri bilgiyi bu veri yığınlarının içinden çekip çıkarabilmesini sağlamak için çalışan bir bilim. Özellikle bilişim, pazarlama, bankacılık ve sigortacılıkta talep gören bu bilim, 2000lerin başından beri biriktirdiği stratejilerle araştırmacılara “nereye bakacaklarını” söylüyor. Pazarlama sektöründe müşterilerin satın alma alışkanlıklarının belirlenmesi ve uygun ürünleri içeren reklamların gösterilmesi, sigortacılıkta risk gruplarının belirlenmesi, bankacılıkta ise kredi kartı kullanım alışkanlıklarının belirlenmesini sağlayan algoritmaların tamamı veri madenciliği bilimi ile üretilmiştir.

2. Veri Madenciliğinin Tarihçesi

1950’lerde ilk bilgisayarlar matematiksel sayımlar için kullanılıyordu. Yalnızca 10 yıl içinde yani 1960’larda ilk veri tabanlarını oluşturmak için altyapılar kuruldu ve bu altyapılarda veri koleksiyonları biriktirilmeye başlandı. 1970’lerde ilişkisel veri modelleri ve verileri satırlara-sütunlara ayırıp sınıflandırma yapabilen işletim sistemleri (RDMS) geliştirildi. 1980’lerde ilişkisel RDMS uygulamaları yaygınlaşmaya ve talep görmeye başladı. 1990’larda biriktirilen verinin günlük işleri hızlandırabilme potansiyeli üzerine değerlendirmeler yapılmaya başlandı. 1991’de veritabanının potansiyeli üzerine kapsamlı makaleler yazılmaya ve araştırmalar yapılmaya başlandı. 1992’de veri madenciliği üzerine ilk yazılımlar geliştirildi ve 2000’lerin başlamasıyla beraber veri madenciliği küreselleşti.

3. Bilgi Keşif Süreci

Dijitalleşen Dünyada Bilginin Keşfi Veri Madenciliği

Veri madenciliği ham veriyi bilgiye dönüştürmek için gereken işlemler zincirini bilgi keşif süreci olarak adlandırır. İlk adımda “veri temizliği” ile tutarsız ve işlevsiz veriler elenir. Daha sonra “veri bütünleştirme” ile benzer kaynaklardan gelen benzer veriler birleştirilerek sınıflandırılır. “Veri seçme” adımı eleme yaparak işlenecek veri kaynağını azaltır. “Veri dönüşümü” işlemi veriyi kullanıcının kullanabileceği formata dönüştürür. “Veri madenciliği” temizlenmiş verileri işlenmek üzere modeller ve örüntüler. “Örüntü değerlendirme” işleminde düzenlenmiş veriler işlenir, açıklanır, tanımlanır ve değerlendirilerek bilgiye dönüştürülür. Son olarak “bilgi sunumu” işleminde bilgiyi talep eden kuruma veya kullanıcıya bilgi sadeleştirilerek aktarılır.

4. Veri Madenciliği Teknikleri

Dijitalleşen dünyada bilginin de dijitalleşmesi sonucu yeni veri madenciliği yöntemlerinin keşfi kaçınılmazdır. Bu yöntemler ve teknikler verinin tipine ve türüne bağlı olarak süreci hızlandırmak, pratikleştirmek veya kolaylaştırmak adına uygulanırlar. Öne çıkan veri madenciliği teknikleri şunlardır; doğrusal regresyon, lojistik regresyon, zaman serisi, regresyon ağaçlarının sınıflandırılması, nöral ağlar, K-en yakın komşusu, kümeleme, birliktelik analizi ve temel bileşenler analizi. Bu tekniklerin her biri çoğunlukla aynı veri havuzuna farklı sorular sorarak yeni sonuçlara ulaşmaya çalışır. Her bir teknik kendi içinde zaman ve verimlilik üzerine avantajlara ve dezavantajlara sahiptir.

5. CRISP-DM

Dijitalleşen Dünyada Bilginin Keşfi Veri Madenciliği

Metodolojiler, bir bilgi keşif süreci boyunca ortaya çıkan ve bilgiyi işlemeyi geciktiren sorunları tespit etme, sorunlar için çözüm süreçleri tasarlama ve çözümleri uygularken zamandan tasarruf etme işlevlerini yerine getiren problem çözme paketleridir. Veri madenciliği 2 temel metodolojiden yararlanır. Bunlardan birincisi CRISP-DM en popüler olanıdır. 6 aşamadan oluşur. “İşi tanımlama” projenin hedeflerini ve sorunu tanımlar. “Veriyi anlama” toplanan verileri nitelendirilerek çözüm sürecini başlatır. “Veriyi hazırlama” veri üzerinde yapılacak işlemleri tasarlar. “Modelleme” modellemeye uygun parametreleri hazırlar. “Değerlendirme” süreçte hata arar ve sağlama yapar. “Uygulama” sorunun çözümünü talep eden kuruma veya kullanıcıya sunar ve işleme koyar.

6. SEMMA

En büyük istatistik ve iş zekâsı yazılımı üreticilerinden biri olan SAS Enstitüsü tarafından tasarlanan SEMMA en çok uygulanan ikinci veri madenciliği metodolojisidir. 5 aşamadan oluşur. Sample (örnekleme) adımında işlenecek veriyi temsil edecek bir örnek belirlenir. Explore (keşfetme) adımında veriyi basitçe tanımlayacak bir şema üretilir. Modify (değiştirme) adımında veriler seçilen örneğe dönüştürülür ve fazlalıklar elenir. Model (modelleme) adımında istatistiksel modeller veriler üzerine uygulanır. Assess (değerlendirme) adımında çözümde uygulanan modelin sonuç ile entegre olup olmadığı değerlendirilir ve süreç üzerinde sağlama yapılır.

7. Veri Ambarı

Dijitalleşen Dünyada Bilginin Keşfi Veri Madenciliği

Veri ambarı, veritabanını karmaşadan korumak için tasarlanmış bir veri yönetim sistemidir. İş zekâsı faaliyetlerine ve analitik incelemeye olanak tanımak ve süreci desteklemek için kurulur ve çoğunlukla geçmişe ait büyük miktarlarda düzenlenmemiş veri içerir. Temelde veri ambarı ait olduğu kurumun “tek doğruluk kaynağı” olması için tasarlanır. Analistler ve veri bilimcileri kurumun verilerini veri ambarı içerisinde zaman içinde kusursuz bir işlevselliğe getirirler. Böylece veri ambarı kurumun gelecek kararları ve adımlarını belirlemek üzere bir soru-cevap makinesi haline gelir. Veri ambarları dijitalleşen dünyada kurumların veri madenciliği ile ihtiyaçları olan bilginin keşfi ve üretimini yapan bilgi hazineleridir.

8. Veri Ambarının Avantajları

Veri ambarı kurumun ihtiyacı olan bilgiyi üretmek için kullanacağı verileri tek bir noktadan yönetebilmesini ve düzenleyebilmesini sağlar. Veri kirliliğini önlemek için benzer kaynaklardan alınan benzer verileri birleştirebilir ve hatalı verilerin tespitini kolaylaştırır. Veri zaten tek noktada toplanmış olduğu için, bilgi keşif sürecinin gerektirdiği zamanı fazlasıyla azaltır ve analiz-raporlama süreçlerini asgari bir süreye indirgeyerek olağanüstü zaman tasarrufu sağlar. Zamana dayalı raporlama ve karşılaştırma yapabildiğinden kurumun karar verme mekanizmasını tecrübe birikimiyle yönlendirebilir ve veri madenciliğinin en önemli özelliği olan “veriye doğru soruyu sorma” işlemini kolaylaştırır.

9. Büyük Veri

Büyük veri yüzlerce alt başlıkta incelenen uçsuz bucaksız bir kavramdır. Tüm internette var olan kapsamlı ve boyutu olağanüstü miktarlara ulaşan bilgi yığınları büyük veri olarak nitelendirilir. Bu kadar büyük veriler arama motorlarından ilaç depolarının listeleme sistemlerine, banka kayıtlarından bir ülkenin tüm hastane kayıtlarına dek uzanan devasa kaynaklardan elde edilirler. Büyük Veri doğru veri madenciliği yöntemleriyle işlendiğinde bir ülkenin geleceğine karar verebilecek kadar nitelikli olabileceğinden siber güvenlik sektörü çoğunlukla Büyük Veri’yi korumak üzere uzmanlaşmıştır. İlk Büyük Veri yığınları astronomi ve genetik bilimi alanlarında oluşturulmaya başlanmıştır.

10. 3V Kavramı

Dijitalleşen Dünyada Bilginin Keşfi Veri Madenciliği

3V alt başlıkları Büyük Veri’nin niteliklerini tanımlamak için kullanılan kavramlardır. Volume (hacim) Büyük Veri’nin içerdiği verinin miktarını temsil eder. Yalnızca 2020 yılında internet 40 zettabyte (1 milyar terabyte) veriyi Büyük Veri’ye eklemiştir. Variety (çeşitlilik) Büyük Veri’nin kaynaklarının neredeyse her şeyi kapsayan kaynaklarını temsil eder. Sosyal medyadan excel dosyalarına, pdf dosyalardan videolara kadar her şey kaynaktır. Velocity (hız) Büyük Veri’nin büyüme hızıdır. Gerçek zamanlı üretilen veriler, toplu işlem dosyaları (batch), çevrimdışı ve çevrim içi üretilen verilerin aktarımı bu alt başlığa dahildir.


Bu içeriğe ifadenle renk ver!

Beğen Beğen
15
Beğen
Mutlu Mutlu
11
Mutlu
Eğlenceli Eğlenceli
8
Eğlenceli
Üzgün Üzgün
0
Üzgün
Olamaz Olamaz
0
Olamaz
Kızgın Kızgın
0
Kızgın
Komik Komik
0
Komik
İlginç İlginç
4
İlginç

Yorum bırak

Lütfen üye girişi yapın!