지난 글에서는 Erasure Coding(EC)란 무엇이고 EC의 알고리즘과 정책은 어떤 것이 있는지에 대해 이야기해 보았습니다. 2020/11/26 - [IT 정보/Hadoop Eco System] - Hadoop 3에서 Erasure Coding이란 - 1 Hadoop 3에서 Erasure Coding이란 - 1 앞선 글에서는 하둡 3버전을 도입해야하는 3가지 이유에 대해서 이야기 해보았습니다. 2020/11/15 - [IT 정보/Hadoop Eco System] - Hadoop 3 버전을 도입해야하는 3가지 이유 Hadoop 3 버전을 도입해야하는 3가 joonyon.tistory.com 이어서 이번 글에서는 그렇다면 우리는 EC를 사용하는 것이 정말 기존의 3 copy 복제 정책보다 좋기만 한 것..
앞선 글에서는 하둡 3버전을 도입해야하는 3가지 이유에 대해서 이야기 해보았습니다. 2020/11/15 - [IT 정보/Hadoop Eco System] - Hadoop 3 버전을 도입해야하는 3가지 이유 Hadoop 3 버전을 도입해야하는 3가지 이유 하둡은 1.0을 시작으로 2.0버전을 넘어 현재는 3.3버전까지 릴리즈가 되어 있습니다. 이렇게 많은 버전업이 진행되는 기간 동안 더 이상 하둡은 새로운 것이 아닌 빅데이터의 기반으로 자리 잡았 joonyon.tistory.com 이어서 이번에는 Erasure Coding에 대해 알아보도록 하겠습니다. 이번 Erasure Coding에 대한 글은 한번에 담기에는 부담이 있어 두 개의 포스팅으로 나눠서 이야기하려 합니다. 이번 글에서는 Erasure Cod..
하둡은 1.0을 시작으로 2.0버전을 넘어 현재는 3.3버전까지 릴리즈가 되어 있습니다. 이렇게 많은 버전업이 진행되는 기간 동안 더 이상 하둡은 새로운 것이 아닌 빅데이터의 기반으로 자리 잡았습니다. 그리고 아직까지는 많은 곳에서 하둡 3 버전보다는 2버전을 많이 사용하고 계시리라 예상됩니다. 그래서 이제는 하둡 2버전에서 3버전으로 넘어가야하는 이유에 대해 이야기해보려 합니다. Erasure Coding 하둡이 3버전으로 업그레이드 되면서 가장 눈에 띄었던 특징 중에 하나는 Erasure coding(EC)이 도입되었다는 것입니다. 기존 2버전의 하둡은 Hot data든, Cold data든 모두 같은 복제 정책(기본 3copy)을 가지고 보관해야만 했습니다. 이런 3copy 데이터 보관은 Fault..
*Cloudera Engineering Blog에 기재된 내용 입니다. 출처 : https://blog.cloudera.com/blog/2019/06/hdfs-erasure-coding-in-production/?fbclid=IwAR1agLV-T50SV2MtWyKTDzFIBPoonR-NTR5CWdl7szJ9BAvcaME1QGR80vg Apache Hadoop 3.0에서 제공되는 주요 기능인 HDFS Erasure coding(EC)는 CDH 6.1.x 이상의 버전에서도 사용할 수 있으며, Spakr 및 MapReduce와 같은 특정 응용 프로그램에서 사용할 수 있습니다. 이전 버전의 HDFS는 여러 데이터 복사본(기존 스토리지 array의 RAID1과 유사)을 복제함으로써 Fault tolerance를 ..