목록nosql (6)
Dharma
클라우드 서비스의 성능을 측정하기 위한 벤치마크 툴입니다. 여러개의 대안이 있을 때 어떤 것이 우리쪽에 더 적합한가 측정하기에 아주 훌륭한 도구 입니다. YCSB 메인 페이지 설치 방법 $ wget https://github.com/downloads/brianfrankcooper/YCSB/ycsb-0.1.4.tar.gz $ tar xfvz ycsb-0.1.4.tar.gz $ cd ycsb-0.1.4 컴파일 된 바이너리를 다운 받는 방법 (자바로 추정) $ git clone git://github.com/brianfrankcooper/YCSB.git $ cd YCSB $ mvn clean package 실제로 다운 받아서 컴파일 하는 방법. 그러나 컴파일이 안됩니다. asm 3.1.jar 의 압축이 풀리지..
HBase 는 가-분산 방식 까지 설치되어 있다고 가정하고 Hadoop 은 완전-분산 방식까지 설치되어 있다고 가정합니다. (지난 포스트들을 찾아보세요) 4대의 서버에 걸쳐서 HBase 클러스터링 설정을 하는 것으로 하겠습니다. nobody1 - HMaster nobody2 - RegionServer nobody3 - RegionServer nobody4 - RegionServer 이제 설정파일들을 검토하겠습니다. conf/hbase-env.sh # export JAVA_HOME=/usr/java/jdk1.6.0/ export JAVA_HOME=/usr/lib/jvm/java-6-openjdk 를 추가해주고 (아마 되어 있을 것입니다) # export HBASE_CLASSPATH= export HADOO..
몽고 DB 에서 간단한 맵 리듀스 (MapReduce)를 돌려보겠습니다. 예제의 원문은 http://cookbook.mongodb.org/patterns/pivot/ 에서 찾을 수 있습니다. db.actors.insert( { actor: "Richard Gere", movies: ['Pretty Woman', 'Runaway Bride', 'Chicago'] }); db.actors.insert( { actor: "Julia Roberts", movies: ['Pretty Woman', 'Runaway Bride', 'Erin Brockovich'] }); 기본이 되는 데이터를 집어 넣습니다. map = function() { for(var i in this.movies){ key = { movie: ..
먼저 하둡(Hadoop) 이 필히 설치가 되어 있어야 합니다. 이번에 HBase 를 가-분산 방식 (Pseudo Distributed )으로 설치해 볼 예정이기 때문에 하둡 (Hadoop) 또한 가-분산 방식으로 설치가 되어 있는 것이 좋을 것입니다. 하둡이 먼저 설치되어야 하는 이유는 HBase 가 하둡 기반위에서 돌아가기 때문입니다. $HBASE_HOME/lib 밑의 추가되어 있는 hadoop-core-x.x.x.jar 는 스탠드얼론(Stand Alone) 버젼에서 쓰이는 것으로 나중에 분산적용할 때는 클러스터(Cluster)에 설치되어 있는 하둡과 버젼을 일치시켜줘야 한다. 따라서 HBase 0.92.0 버젼을 설치하기 위해서는 Hadoop-1.0.0 버젼이 설치되어야 합니다. 하둡 설치하는 방법은..
바야흐로 폭발적인 데이터의 시대가 왔습니다. 저번 포스트 에서도 언급을 했지만 RDBMS 와 다르게 확장을 주요 특징으로 하는 것이 NoSQL 입니다. 즉 '분산' 으로 그 폭발적인 데이터들을 전부 수용이 가능합니다. 이러한 NoSQL 중에서 CouchDB 를 잠시 살펴보기로 하겠습니다. http://couchdb.apache.org/ 위 링크에서 대략적인 것을 살펴 볼 수가 있습니다. CouchDB 의 가장 큰 특징은 (절대적으로 제 관점입니다) Subversion 같은 파일 레파지토리 시스템 (File Repository System)을 분산 DB 형태로 바꾸어 놓은 것이라고 할 수 있습니다 세세한 몇가지 특성을 살펴보기로 하겠습니다. 1. Erlang 이란 언어로 쓰여짐 가장 빠른 속도를 자랑한다는..
화살표는 신경 쓰지 맙시다.. Consistency : 일관성 각각의 사용자가 항상 동일한 데이터를 조회한다. Availability : 가용성 모든 사용자가 항상 읽고 쓸 수 있다. Partition Tolerance : 확장 가능성 물리적 네트워크 분산 환경에서 시스템이 잘 동작한다. 기존의 RDBMS 로 칭해지는 데이타베이스들은 CA 에 취중합니다. 따라서 확장이 용이하지가 않고, 대신 최근 트렌드가 되고 있는 NoSQL 들은 기본적으로 P 의 성능이 좋습니다. 그래서 확장성은 기본입니다. 대신 C 나 A 의 일부분을 희생합니다. 카산드라 (Cassandra) 는 AP 를 추구 하고, HBase 는 CP 를 추구합니다. 카산드라는 페이스북이 채택하고 개발해진 것으로 알려지고 유명해 졌는데요. Con..