와일드카드 서브도메인(*.domain.com) *.domain.com 처럼 앞에 붙은 와일드카드 문자인 *가 서브도메인 역할을 합니다. 실제 주소로 와일드카드를 사용하여 접속을 하려고 하면 일반적인 경우에는 접속을 할 수 없습니다.서브도메인이지만 실제로 접속할 수 없는 이유는 도메인 레코드 설정상의 주소이기 때문에 어디까지나 뒷세계에서만 존재하는 아주 특별한 도메인이기 때문입니다. *.domain.com은 지정되지 않은 임의의 서브 도메인에 대해서 모든 연결을 domain.com (또는 따로 지정한 주소)로 연결을 하게끔 합니다. 예를 들어, domain.com의 서브 도메인을 aaa와 bbb, ccc만 설정하였다면 abc.domain.com의 경우는 서브도메인으로 등록되지 않았기 때문에페이지를 불러올 ..
Docker Container 다루기 - 볼륨 공유 ▶ 호스트 볼륨 공유# docker run -d \--name wordpressdb_hostvolume \-e MYSQL_ROOT_PASSWORD=password \-e MYYSQL_DATABASE=wordpress \-v /home/wordpress_db:/var/lib/mysql \mysql:5.7*볼륨 공유에는 -v 옵션을 사용한다. 위의 예제에는 호스트의 /home/wordpress_db 디렉터리와 컨테이너의 /var/lib/mysql 디렉터리를 공유한다는 뜻이다. 즉 호스트 볼륨 공유는 [호스트의 공유 디렉터리]:[컨테이너의 공유 디렉터리] 형태이다. *미리 /home/wordpress_db를 미리 생성하지 않아도 도커는 자동으로 이를 생성한다..
▶ 버전 확인 # docker -v ▶ 이미지 내려 받기 # docker pull [이미지 이름] ex) docker pull centos:7 ▶ 이미지 목록 확인 # docker images ▶ 이미지 삭제 # docker rmi [이미지 이름] ▶ 컨테이너 생성 # docker create -i -t --name mycentos centos:7 ▶ 컨테이너 실행 # docker start mycentos ▶ 컨테이너 내부 접근 # docker attach mycentos ▶ 컨테이너 생성 및 내부접근 # docker run -i -t --name centos7 centos:7 ▶ 컨테이너 정지 # docker stop centos7 ▶ 컨테이너 정지 후 빠져나오기 # exit or Ctrl + D ▶..
Transforming Data Using RDDs1.weblog 데이터를 RDD로 만든다logRDD = sc.textFile("/loudacre/weblogs/")2.logRDD 에서 JPG 파일에 대한 요청만 필터링한다. jpglogsRDD = logRDD.filter(lambda line: ".jpg" in line)3.take action을 이용해서 jpglogsRDD에서 데이터 다섯줄만 반환한다. jpgLines = jpglogsRDD.take(5)4.반복문으로 jpgLines를 출력한다. for line in jpgLines: print line 217.150.149.167 - 4712 [15/Sep/2013:23:56:06 +0100] "GET /ronin_s4.jpg HTTP/1.0" 20..
Read and Display Data from a Text File 1.frostroad.txt 파일을 RDD로 정의한다. myRDD = sc.textFile("/loudacre/frostroad.txt") 2.Spark는 아직 file을 읽는 않았다. spark는 RDD에서 action을 수행하기 전까지 file을 읽지 않을 것이다.count action을 사용해서 RDD에 몇개의 요소가 들어있는지 세어보아라. myRDD.count() 23 3.collect를 호출하여 RDD에 있는 모든 데이터를 Spark driver로 반환해라. 파이썬의 경우 list of strings 데이터 타입을 반환할 것이다. lines = myRDD.collect() 4.lines에 담겨있는 collection을 출력한다..
Working with DataFrames and SchemasdevDF = spark.read.json("/loudacre/devices.json").show(3) +--------+------+--------+-----+--------------------+ |dev_type|devnum| make|model| release_dt| +--------+------+--------+-----+--------------------+ | phone| 1|Sorrento| F00L|2008-10-21T00:00:...| | phone| 2| Titanic| 2100|2010-04-19T00:00:...| | phone| 3| MeeToo| 3.0|2011-02-18T00:00:...| +--------+---..
Exploring DataFrames Using the Apache Spark Shell devDF = spark.read.json("/loudacre/devices.json") Spark shell에서 다음과 같이 DataFrame으로 HDFS에 있는 JSON 파일을 읽어올 수 있습니다. devDF.printSchema() root |-- dev_type: string (nullable = true) |-- devnum: long (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- release_dt: string (nullable = true) Spark는 Lazy하기 때문에 앞서 rea..
Pyspark Shell과 Jupyter notebook 연동하기 환경 변수 설정 Pyspark Shell과 Jupyter notebook을 연동하기 위해서는 당연하지만 우선 Spark와 Jupyter notebook이 설치 되어 있어야 한다. 이를 위해 spark는 cloudera 배포판을 이용하여 Spark2.2 버전을 설치하였고, Jupyter notebook은 Anaconda로 환경을 구성 하였다. Pyspark shell과 Jupyter notebook을 연동하기 위해서는 환경변수 설정을 해주면 간단하게 가능하다.그리고 나와 같이 Cloudera 배포판을 이용하여 spark를 설치한 경우에는 Hue의 default 포트가 8888로 Jupyter notebook default 포트와 겹치므로 J..
아나콘다(Anaconda) 설치 및 사용법 for Centos7 아나콘다 다운로드 및 설치 아나콘다는 https://www.continuum.io/downloads 에 접속해서 다운로드 받을 수 있다. Centos7에 설치할 것이기 때문에 Linux Installer를 다운로드할 것이다. 따로 FTP프로그램을 사용해서 설치파일을 옮겨줘도 좋으나 여기서는 wget을 이용하여 다운로드 할 것이다. 1wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.shcs 그리고 설치를 위해서는 bzip2 가 설치되어 있어야하는데 만약 설치중에 bzip2가 없다는 에러가 뜬다면 bzip2를 설치해주면 된다.다음과 같이 간단히 설치할 수 있다. 12wge..
Cloudera 배포판 HUE Admin 계정 생성 및 비밀번호 변경 Cloudera 배포판에서 HUE Admin 계정 패스워드를 잊어버렸을 경우 HUE WEB UI에서 사용자 관리를 할 수 없다. 따라서 shell에 접속해서 새로운 HUE Admin 계정을 생성해 준 뒤에 패스워드를 잊어버린 계정에 대한 패스워드도 재설정 가능하다. 이를 위해 HUE 명령어를 사용해야 하는데 Cloudera 배포판 경우에는 /opt/cloudera/parcels/CDH/lib/hue/build/env/bin 위치에서 사용가능하다. 단, 명령어는 root 계정으로 실행해야한다. ■ Admin 계정 생성 ( Superuser 생성 ) Cloudera 배포판에서는 CM이 관리하고 있기 때문에 --cm-managed라는 옵션을..
Apaceh Spark2 Cloudera 배포판 설치 ⊙ Spark 2 요구 사항 CDH 버전 다음과 같이 각 Spark2 릴리즈에 따라 지원하는 CDH가 다르다. 또한 클라우데라의 권고사항에 따르면 Hive와의 호환성 문제로 인해 Hive 기능을 사용하는 경우에는 Spark2.0 Release2 이후 릴리즈를 사용하는 것이 좋다. 출처 : https://www.cloudera.com/documentation/spark2/latest/topics/spark2_requirements.html CM 버전 Cloudera Manager 버전의 경우 5.8.3 이상의 버전을 사용한다면 어떤 spark2 릴리즈를 설치하더라도 무관하다. Scala 2.11 Requirement Spark2에서는 오직 Scala 2..
출처 : www.machbase.com 인피니플럭스(대표 김성진)의 마크베이스 제품 교육에 다녀왔습니다! 마크베이스는 기존에는 사명과 동일한 인피니플럭스 였던 제품명을 새롭게 리브랜딩한 이름입니다. 마크베이스에 대해 설명 드리자면 서버, 장비, 어플리케이션으로 부터 대량으로 발생하는 로그성 시계열 데이터를 실시간으로 저장하고 분석하는 혁신적인 기술의 DBMS 입니다. 주요 기능으로는 출처 : Machbase 교육 교안 다음과 같이 수집부터 저장, 분석, 시각화, 관리까지 전반적인 영역에 걸쳐서 다양한 기능을 제공하고 있습니다. 성능적인 측면에서는 Intel i7 3.6 Ghz 4 core CPU, 32GB Memory, 7200 SATA HDD, CentOS 6.6 환경에서 130 bytes, 1억 건,..