목록hadoop (9)
Dharma
하둡(hadoop) 의 옛버젼이 필요할 때가 있습니다. 예를 들면 최근 하둡(hadoop) 은 2.6.0 버젼대로 올렸지만 스파크(Spark) 는 1.2.0 버젼이 최신인데 하둡(hadoop)은 2.4.1 버젼과 맞춰줘야 하는 문제가 있습니다. 따라서 옛날 버젼의 하둡(hadoop)을 원하신다면 아래의 링크에 가서 원하는 버젼을 고르시면 됩니다. http://archive.apache.org/dist/hadoop/core/
매번 버젼이 바뀔때 마다 쓰는 것이 지겨워서 한동안 안쓰고 있었는데 예전에 설치하던 시절하고 너무 많이 바껴서 정리를 할 필요가 있겠더군요. http://rocksea.tistory.com/282 위의 링크는 제자가 열심히 정리한 버젼입니다. 이번 포스트는 저 포스트에서 부족한 부분을 채우는 식으로 정리할려고 합니다. 1 준비 사항 HOST OS: OSX Yosemite 가상 컴퓨터 소프트웨어: VMWare 7.0 (아니면 Virtual Box) Linux Ubuntu 14.04 LTS (Server Version) 1.1 버추얼 박스(Virtual Box) 굳이 버추얼 박스가 아니라도 괜찮습니다. VMWare 나 Parallel 도 괜찮습니다. 버추얼 박스는 공짜기 때문에 제목으로 달아논 것이고 저는 ..
조금 광오한 제목을 썼지만 제자들과 같이 일하는 동료들에게 설명하기 위해서 만든 자료라 조금 거창하게 만들었습니다. 사진이나 그림들도 돌아다니는 것을 그냥 썼기에 저작권 이슈가 있을 수도 있습니다. 고발이 들어오면 바로 내리겠으니 양해해 주세요. 자료는 지금까지 제가 만들어 온 것과 마찬가지로 KeyNote 로 작성됐습니다. 원본이 필요하시면 메일 남겨주시면 보내드립니다. IT 쪽과 산업군과 심지어 경영쪽에서도 말이 많은 BigData 입니다. 최근의 핫한 이슈라서 어디서나 BigData를 말하고 있습니다. 저는 실제로 이 기술을 접한지는 오래됐습니다. 선배 (저에게 기술을 알려주신 사부님 되십니다.)의 회사에 놀러가서 최근에 나온 기술중에 BigData 란 것에 관심 있다고 하니 말 없이 책을 한권 주..
HBase 는 가-분산 방식 까지 설치되어 있다고 가정하고 Hadoop 은 완전-분산 방식까지 설치되어 있다고 가정합니다. (지난 포스트들을 찾아보세요) 4대의 서버에 걸쳐서 HBase 클러스터링 설정을 하는 것으로 하겠습니다. nobody1 - HMaster nobody2 - RegionServer nobody3 - RegionServer nobody4 - RegionServer 이제 설정파일들을 검토하겠습니다. conf/hbase-env.sh # export JAVA_HOME=/usr/java/jdk1.6.0/ export JAVA_HOME=/usr/lib/jvm/java-6-openjdk 를 추가해주고 (아마 되어 있을 것입니다) # export HBASE_CLASSPATH= export HADOO..
드디어 정리를 해서 올리게 됐습니다. 하둡 (Hadoop) 클러스터링(Clustering) 은 가-분산 방식 으로 설치가 되어 있다는 가정하에 진행하겠습니다. nobody1 -> master , namenode nobody2 -> datanode , secondary-namenode nobody3 -> datanode nobody4 -> datanode이런 형식으로 설정을 할려고 합니다. 모든 서버는 전부 같은 계정 (예를 들면 hadoop )으로 세팅이 되어 있다고 가정합니다. 그리고 모든 서버는 서로 서로 password 없이 ssh 로 로그인이 된다는 가정이 필요합니다. nobody1 서버에서 세팅을 하고 나머지 서버로 rsync 를 이용해서 동기화를 시켜줄 것입니다. 하둡은 설정파일에 기재되어 있..
HBase 구동시에 만약 다음과 같은 에러가 발생한다면 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/crazia/work/hbase-0.92.0/lib/slf4j-log4j12-1.5.8.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/home/crazia/work/hadoop-1.0.1/lib/slf4j-log4j12-1.4.3.jar!/org/slf4j/impl/StaticLoggerBinder.class] 클래스패스에 slf4j-log4j12 관련 jar 가 여러개 있어서 이런 현상이 ..
EDIT: 실제로 HDFS 가 저장되는 디렉토리를 지정해줘야 합니다. 지정 안해주면 기본적으로 /tmp 밑에 파일이 생기는 데 리부팅(rebooting) 하게 되면 파일이 사라져서 두번째 부터는 네임노드 (namenode)가 구동하지를 않습니다. 저번 포스트 (누름) 에서 Stand Alone 방식에 대해서 알아봤습니다. 이번에는 가 분산 방식입니다. '가 분산' 방식은 한대의 컴퓨터에서 하둡 파일시스템 (hdfs) ,잡 트랙커 (Job Tracker),와 네임노드 (NameNode), 데이타노드 (DataNode) , 태스크트래커 (TaskTracker) 를 띄우는 방식입니다. 마치 분산을 풀로 하는 것처럼 보이지만 실은 한대에서만 돌리는 것이지요. 그래서 '가 분산' (Pseudo Distribui..
무엇인가를 해 볼려면 역시 설치부터!! 정말 하둡 초 간단 따라하기 식 설치에 대해서 알아봅니다. 시작전에 환경세팅이 필요합니다. 어떤 OS 기반위에 설치할 것인가를 정해야 하는데 저는 그냥 리눅스로 정했습니다. 환경세팅자체도 쉽고 하둡도 리눅스를 추천하고 있기 때문입니다. 그래서 가장 최근에 릴리즈된 우분투 11.10 (Ubuntu 11.10) - 다운로드 페이지 로 정했습니다. 하둡 설치 형태는 3가지로 나뉩니다. 1. StandAlone - 하둡 파일 시스템을 띄우지 않은 상태에서 동작하는 것만 테스트 해 볼 수 있는 상태이다. 2. Pseudo Distribution - 하둡 파일 시스템을 구동시키고 한 컴퓨터에서 모든 데몬들을 띄워서 동작하는 것을 테스트 해볼 수 있는 상태 3. Cluster..
어디가서 기술 모른다고 기 죽지 말고 들어본 것처럼 말 할 필요가 있는 매니져분들을 위한 1분 짜리 하둡 정리 입니다.더 복잡하고 더 깊이 있는 내용은 '공부'를 해야 하기 때문에 제가 내세우는 취지와는 안 맞을 것입니다. 하둡의 화두는 '분산' 입니다. 하둡은 두가지 큰 요소의 결합입니다. '처리(계산)' 와 '저장' 입니다. 즉 '분산처리' 와 '분산저장' 이라고 보면 됩니다. 여러개의 저가형 컴퓨터를 마치 하나인것 처럼 묶어주는 기술이라고 보면 됩니다. (그래서 계산 능력과 저장 공간을 늘립니다) 분산저장 하둡 파일시스템(HDFS: Hadoop Distributed File System) 을 이용해서 파일을 적당한 블록 사이즈 (64MB)로 나눠서 각 노드 클러스터(각각의 개별 컴퓨터) 에 저장합니..