Elasticsearch ve Elasticsearch Kullanan Bütün SIEM ve Log Yönetimi Çözümleri Neden Disk Canavarı?

Ertugrul Akbas
2 min readSep 30, 2021

Logların hızlıca erişilebilir olması için Elasticsarch de bu logların indexlenmesi gerekir. Bu işlem disk kullanımı açısından çok maliyetli bir işlemdir.

Elasticsearch Apache Lucene[1] kullanır. Bundan dolayı bütün disk kullanım yeteneklerini Apache Lucene’den miras alır. Apache Lucene aşağıdaki formüle göre index dahil disk kullanımına sahiptir [2]:

disk space used(original) = 1/3 original for each indexed field + 1 * original for stored + 2 * original per field with term vectors

Formülden de anlaşılacağı gibi eğer normalize edilmiş bir logun srcip, dstip, user, process gibi 20 adet alanını (kolon) indexleseniz log miktarınız 1 e 60 gibi artar, dolayısı ile bu büyüklükte kullandığınız disk alanında artış yaşarsınız. Örnek olarak 2000 EPS, yani günlük 100 GB logunuz varsa ve 20 alanı indexlerseniz yaklaşık 6 TB indexiniz olur.

Elasticsearch de Apache Lucene disk kullanım özelliklerini miras aldığı için disk kullanımı en az bu formüldeki kadardır.

Elasticsearch hem kendisi açık kaynak ve ücretsiz olduğu için çokça kurulmakta, hem de ülkemiz dahil bütün dünyada ticari olarak satılan çokça SIEM ve Log Yönetimi ürünleri Elasticsearch üzerine geliştirilmekte. Bu noktoda bu ürünleri kullanırken disk planlamasını çok doğru yapmak en temel parametre olmakta.

Referanslar

1-https://stackoverflow.com/questions/27793721/what-is-the-difference-between-lucene-and-elasticsearch

2-https://lucidworks.com/post/estimating-memory-and-storage-for-lucenesolr/

--

--