Hadoop User Experience의 약자인 Hue는 Hadoop 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스입니다. Hue는 Hive Query Edit 및 Spark Job 등을 실행할 수 있고, HDFS 파일 Browsing 등이 가능합니다. 1. Identity provider 설치를 위해 WSO2 Identity Server 설치 1) https://wso2.com/identity-and-access-management/ 에서 wso2is-5.8.0.zip 다운로드 /opt/cloudera/security/saml 위치에 압축풀기 불러오는 중입니다... # cd /opt/cloudera/security/saml/wso2is-5.8.0/repository/conf # find ./ -..
1. Apache Zeppline 다운로드 및 압축 풀기 https://zeppelin.apache.org/download.html Download Note: From Zeppelin version 0.6.2, Spark interpreter in binary package is compatible with Spark 2.0 & Scala 2.11 and Spark 1.6(or previous) & Scala 2.10. You can use even different version of Spark at the same time if you set different SPARK_HOME in interp zeppelin.apache.org wget http://apache.mirror.cdnetworks.c..
*Cloudera Engineering Blog에 기재된 내용 입니다. 출처 : https://blog.cloudera.com/blog/2019/06/hdfs-erasure-coding-in-production/?fbclid=IwAR1agLV-T50SV2MtWyKTDzFIBPoonR-NTR5CWdl7szJ9BAvcaME1QGR80vg Apache Hadoop 3.0에서 제공되는 주요 기능인 HDFS Erasure coding(EC)는 CDH 6.1.x 이상의 버전에서도 사용할 수 있으며, Spakr 및 MapReduce와 같은 특정 응용 프로그램에서 사용할 수 있습니다. 이전 버전의 HDFS는 여러 데이터 복사본(기존 스토리지 array의 RAID1과 유사)을 복제함으로써 Fault tolerance를 ..
Third Party 애플리케이션을 이용하여 JDBC로 Impala에 쿼리를 던지다 보니 특정 Impala Daemon에 커넥션이 집중되는 문제가 발생하였습니다. 이를 해결하기 위하여 HAProxy를 이용하여 Impala에 대한 커넥션을 Load Balancing 해주었습니다. 이를 통해 얻게된 이점으로는 1. Impala를 이용하는 애플리케이션들이 특정 Impala Daemon에 접근하지 않고 공통적인 Proxy 서버를 통해서 접근하게 됩니다. 2. Coordinator Only로 지정된 Impala Daemon들에게만 Least connection 또는 Round robin 방식으로 커넥션을 분배할 수 있습니다. 3. 특정 Impala Daemon에게 과도하게 부하가 걸리는 것을 방지할 수 있습니다...
다음 내용은 charsyam 님께서 블로그에 올려주신 내용을 토대로하여 하였습니다. (https://charsyam.wordpress.com/2019/04/26/%EC%9E%85-%EA%B0%9C%EB%B0%9C-hive-metastore-%EC%97%90%EC%84%9C-location%EC%9D%80-%EC%96%B4%EB%96%BB%EA%B2%8C-%EA%B4%80%EB%A6%AC%EB%90%A0%EA%B9%8C/?fbclid=IwAR12jAsZA4CxAKD6dVulsj9WCxdclcr4sY38DcfZ0tU2xXNroSwklyuHZR4) CREATE TABLE `test1`( `id` bigint PARTITIONED BY ( `datestamp` date) ROW FORMAT SERDE 'org...
어느덧 Hadoop 3.1 까지 릴리즈가 되었고, Cloudera도 Hadoop3.0 버전이 들어가 CDH6.x 버전이 릴리즈 되었습니다. 이 시점에서 Hadoop 3 버전은 Hadoop 2 버전에 비해 무엇이 달라졌을지 한번 정리해 보려고 합니다. 1. Java Version Hadoop 2버전에서는 Java7 이상이라면 모두 지원을 하였습니다. 하지만 Hadoop 3 버전부터는 반드시 Java 8 이상의 버전을 사용하셔야 합니다. 참고로 Cloudera에서는 현재까지는 반드시 Oracle JDK8 이상을 사용하길 권고하고 있습니다. 2. Erasure Coding 도입 Hadoop 2까지 Hadoop은 HDFS에서 Fault tolerance를 위해 Replication factor 3의 3배수 블럭..
Transforming Data Using RDDs1.weblog 데이터를 RDD로 만든다logRDD = sc.textFile("/loudacre/weblogs/")2.logRDD 에서 JPG 파일에 대한 요청만 필터링한다. jpglogsRDD = logRDD.filter(lambda line: ".jpg" in line)3.take action을 이용해서 jpglogsRDD에서 데이터 다섯줄만 반환한다. jpgLines = jpglogsRDD.take(5)4.반복문으로 jpgLines를 출력한다. for line in jpgLines: print line 217.150.149.167 - 4712 [15/Sep/2013:23:56:06 +0100] "GET /ronin_s4.jpg HTTP/1.0" 20..
Read and Display Data from a Text File 1.frostroad.txt 파일을 RDD로 정의한다. myRDD = sc.textFile("/loudacre/frostroad.txt") 2.Spark는 아직 file을 읽는 않았다. spark는 RDD에서 action을 수행하기 전까지 file을 읽지 않을 것이다.count action을 사용해서 RDD에 몇개의 요소가 들어있는지 세어보아라. myRDD.count() 23 3.collect를 호출하여 RDD에 있는 모든 데이터를 Spark driver로 반환해라. 파이썬의 경우 list of strings 데이터 타입을 반환할 것이다. lines = myRDD.collect() 4.lines에 담겨있는 collection을 출력한다..
Working with DataFrames and SchemasdevDF = spark.read.json("/loudacre/devices.json").show(3) +--------+------+--------+-----+--------------------+ |dev_type|devnum| make|model| release_dt| +--------+------+--------+-----+--------------------+ | phone| 1|Sorrento| F00L|2008-10-21T00:00:...| | phone| 2| Titanic| 2100|2010-04-19T00:00:...| | phone| 3| MeeToo| 3.0|2011-02-18T00:00:...| +--------+---..
Exploring DataFrames Using the Apache Spark Shell devDF = spark.read.json("/loudacre/devices.json") Spark shell에서 다음과 같이 DataFrame으로 HDFS에 있는 JSON 파일을 읽어올 수 있습니다. devDF.printSchema() root |-- dev_type: string (nullable = true) |-- devnum: long (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- release_dt: string (nullable = true) Spark는 Lazy하기 때문에 앞서 rea..
Pyspark Shell과 Jupyter notebook 연동하기 환경 변수 설정 Pyspark Shell과 Jupyter notebook을 연동하기 위해서는 당연하지만 우선 Spark와 Jupyter notebook이 설치 되어 있어야 한다. 이를 위해 spark는 cloudera 배포판을 이용하여 Spark2.2 버전을 설치하였고, Jupyter notebook은 Anaconda로 환경을 구성 하였다. Pyspark shell과 Jupyter notebook을 연동하기 위해서는 환경변수 설정을 해주면 간단하게 가능하다.그리고 나와 같이 Cloudera 배포판을 이용하여 spark를 설치한 경우에는 Hue의 default 포트가 8888로 Jupyter notebook default 포트와 겹치므로 J..
Cloudera 배포판 HUE Admin 계정 생성 및 비밀번호 변경 Cloudera 배포판에서 HUE Admin 계정 패스워드를 잊어버렸을 경우 HUE WEB UI에서 사용자 관리를 할 수 없다. 따라서 shell에 접속해서 새로운 HUE Admin 계정을 생성해 준 뒤에 패스워드를 잊어버린 계정에 대한 패스워드도 재설정 가능하다. 이를 위해 HUE 명령어를 사용해야 하는데 Cloudera 배포판 경우에는 /opt/cloudera/parcels/CDH/lib/hue/build/env/bin 위치에서 사용가능하다. 단, 명령어는 root 계정으로 실행해야한다. ■ Admin 계정 생성 ( Superuser 생성 ) Cloudera 배포판에서는 CM이 관리하고 있기 때문에 --cm-managed라는 옵션을..
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.