PayPal open-sources NameNodeAnalytics : a useful tool for identifying common HDFS NameNode anti-patterns (e.g. small files, empty files, old files)
seen from Germany
seen from China

seen from Egypt
seen from United States
seen from United States
seen from United States
seen from Netherlands
seen from Germany

seen from Australia
seen from India

seen from South Africa
seen from Philippines

seen from Malaysia

seen from China
seen from United States
seen from China
seen from United States
seen from Netherlands
seen from United States

seen from Malaysia
PayPal open-sources NameNodeAnalytics : a useful tool for identifying common HDFS NameNode anti-patterns (e.g. small files, empty files, old files)
Resolving the Failure Issue of NameNode
Resolving the Failure Issue of NameNode
In the previous blog “Smattering of HDFS“, we learnt that “The NameNode is a Single Point of Failure for the HDFS Cluster”. Each cluster had a single NameNode and if that machine became unavailable, the whole cluster would become unavailable until the NameNode is restarted or brought up on a different machine. Now in this blog, we will learn about resolving the failure issue of NameNode.
Issues…
View On WordPress
HDFS Mimarisi
HDFS (Hadoop Distributed File System) çok sayıda küçük dosya ile pek verimli çalışmaz. HDFS, büyük boyutlu dosyalar üzerinde işlemler gerçekleştirmek için tasarlanmıştır. Bunun en önemli nedeni, dosyalar erişim için gerekli olan meta verinin Namenode üzerinde dinamik olarak saklanıyor olmasıdır. Çok fazla sayıda küçük dosya bu meta verinin efektif yönetimini zorlaştırır. Hatta bu amaçla konumlandırılan ikincil namenode her ne kadar failover durumları için düşünülse de, belirli periyodlarda asıl namenode hafızasını optimize etmek amaçlı “check pointler” oluşturmak için de kullanılır. HDSF son versiyonunda eklemelere (updates) izin verilmesine rağmen HDFS yapısı, “bir kere yazılıp defalarca oku “ (write one, read all ) prensibine göre çalışır. Hadoop mimarisi master-slave yaklaşımı ile düzenlenmiştir. Namenode master node, slave node ise verilerin saklandığı DataNode’ lardır. HDFS default block size 64 MB’ dır. Daha büyük block size seçilmesi arama kaynaklı gecikmeleri (seek overhead-disk) disk transfer zamanının %1’ i kadar azaltır. Blok boyutu 64 MB dan küçük olan dosyalar HDFS bloğunun tamamını doldurmazlar. Master node hafızası yönettiği slave node ve disk boyutuna göre seçilmelidir. Örneğin 100 makine toplamda 4 TB disk ile replikasyon faktörün 3 olduğu ve 64 MB blok boyutlu seçilen bir durum için :
100x 4 x 1024 x1024 / (3 x64) yaklaşık 2 Milyon MB için 2 GB hafıza seçilmelidir. (her bir milyon MB için 1 GB önerilmektedir)
Namenode, namespace imajı ve edit loğlarını yönetir. SPOF sorunun yönetmek amacıyla bu bilgi NFS üzerinde sürekli olarak yedeklenir. Ayrıca ikincil bir namenode edit loğlarını ve namespace imajlarını birleştirerek, asıl namenode’ un hafıza optimizasyonuna destek sağlar. Namenode fail ederse secondary namenode devreye alınır. Namenode imajı ve edit loğları HDFS’ deki dosyalar ile ilgili tüm bilgiyi barındırır.
Heartbeats
The NameNode and the DataNode are managed by heartbeats. It provides the NameNode confirmation about the availability of the blocks and the replica of the DataNodes. Heartbeat also provides the information about the total storage capacity, storage in use and the number of data transfer. If the NameNode does not receive a heartbeat from a DataNode within 10 minutes, it considers that the DataNode…
View On WordPress
Important HDFS Components
The communication and management between a NameNode and DataNode is the most critical component within the HDFS architecture. This aspect is implemented as a protocol of handshakes and system IDs. A namespace ID is assigned to the file system on the NameNode. This ID is stored on all the nodes across the cluster. Similarly, the DataNodes are assigned unique storage ID on the creation and…
View On WordPress
HDFS Client
The client is a layer of interface that is used by programs to access data stored within HDFS. The client first contacts the NameNode to get the location of the data blocks and once these data blocks are returned to clients, it reads block contents from the closest DataNodes. When writing, the client request the NameNode to provide to DataNodes where the data is written. When the block is…
View On WordPress
Hadoop Explained: HDFS
In our continuing coverage of Hadoop, our subject today is the Hadoop Distributed File System (HDFS), a Java-based file system that provides scalable and reliable data storage that is designed to span large clusters of commodity servers. HDFS, MapReduce, and YARN form the core of Apache Hadoop. In production clusters, HDFS has demonstrated scalability of up to 200 PB of storage and a single…
View On WordPress
Steps To Setup Hadoop 2.4.0 (Single Node Cluster) on CentOS/RHEL
Steps To Setup Hadoop 2.4.0 (Single Node Cluster) on CentOS/RHEL
Apache Hadoop 2.4.0 significant improvements over the previous stable releases. This version has many improvements in HDFS and MapReduce. This how to guide will help you to install Hadoop 2.4.0 on CentOS 6.5 System. This article doesn’t includes overall configuration of hadoop, we have only basic configuration required to start working with hadoop.
Step 1. Install Java/Jdk
Java is the primary…
View On WordPress