도서명 : HADOOP HACKS: 프로페셔널이 사용하는 74개 실전 테크닉
저자 : 나카노 다케시 외 공저 / 김명진, 전인석, 김성희 역
발행일 : 2015년 12월 9일
ISBN : 9788994405261
정가 : 31,000 원
구매하기 : 강컴닷컴 | 인터파크 | YES24


 



책 소개

프로페셔널이 사용하는 74개 HADOOP HACKS 실전 테크닉 !

Hadoop의 개요를 이해한 독자를 대상으로 Hadoop을 실제 능숙하게 사용하기 위한 테크닉과 Tips을 정리한 책이다. 시스템 구축/운용, 애플리케이션 개발 등 Hadoop만의 특성을 마스터하는 방법부터 Hbase, Hive, Pig, Mahout, ZooKeeper 등 부제에 관한 Hack까지 광범위한 내용을 담고 있다. Hadoop의 능력을 최대한 이끌어 내는데 필요한 툴과 그 사용법, 그리고 내부 동작을 알기위한 방법과 더불어 앞선 테크닉 등, 개발현장에서 필요한 74개의 테크닉을 게재했다. 앞서 Hadoop에 주목해 실제로 활용해 온 전문가들이 쓴 이 책은 Hadoop을 능숙하게 사용하고 싶은 엔지니어에게 꼭 필요한 책이다.

도서 특징

1장 『시스템 구축/운용 Hacks』Hadoop을 마스터한 이후에 인프라 기반의 관점에서 중요한 포인트를 정리하고, Hadoop은 패치 처리 구조라서 각각의 처리(JOB)를 정기적으로 하는지, 잘 가동되고 있는지를 담당자가 확인할 필요가 있다. 이런 작업(Job) 관리용 도구에 관해서 소개한다.

2장 『Application 개발 Hacks』Hadoop을 사용한 데이터 처리에서 몇 가지 노하우를 살펴보고, Hadoop에 의한 MapReduce를 직접 사용하지 않고 Hive나 Pig 등을 사용하는 케이스가 증가하는 경우에도 Hadoop에 대한 깊은 이해가 필요하다.

3장 『HBase Hacks』 Hadoop에서 동작하는 KVS인 HBase를 알아본다. HBase를 활용하기 위한 노하우 즉, 비교적 사용 빈도가 높은 MySQL과의 연계방법, RDBMS에서 말하는 트리거, 스토어 프로시저에 해당하는 Coprocessor 기능, 그리고 추가로 데이터가 일괄적으로 입력될 때의 케어(pre-split 테이블) 등을 소개한다.

4장 『Hive Hacks』Hadoop을 사용한 빅데이터 활용을 손쉽게 하는 도구 Hive에 관해서 살펴보고, Hive를 활용하는 노하우 즉, 자동 시스템과 연계 진행방법, 높은 성능의 HiveQL 작성방법 등을 소개한다. Hadoop의 등장으로 인해 대규모 데이터 처리를 구현하는 것의 장벽은 낮아졌지만, Hive는 이것을 더욱 간단하게 해준다.

5장 『Pig Hacks』Hadoop을 사용한 빅데이터 활용을 유용하게 해주는 툴 중의 하나인 Pig를 살펴본다. Pig를 활용하고 있는 현장에서 Java에서 Pig를 사용하는 방법이나 Pig에서의 처리가 가벼워지도록 튜닝하기 위해서 어떻게 MapReduce에 변환되는지 확인하는 방법 등을 소개한다.

6장 『Mah out Hacks』기계학습의 도구/라이브러리인 Mahout를 살펴본다. 최소한 알고 있으면 이해에 도움이 되는 기계학습 분야의 단어를 소개하고 몇 가지 기능을 사용해보는 것과 동시에 그 기능이 어떻게 MapReduce에 배포되고 분산 처리되는지 살펴본다.

7장 『ZooKeeper Hacks』Hadoop의 예고 시스템에서 많이 사용되는 ZooKeeper에 관해 알아본다. ZooKeeper를 이용함으로써 간단한 시스템으로 설계할 수 있으므로 꼭 이번 장을 참고하자.

저자 소개

Takeshi Nakano

1976년 효고켄 출신. 나라 첨단 대학원대학을 거쳐 주식회사 리쿠르트에 입사. 정보시스템 부문의 MIT에서 웹 인프라 구축부터 R25 등의 사이트 제작/개발/운용 등을 담당. 그 기간 Solr 등 OSS의 도입과 Cache, Middleware 개발 등을 추진. witter: @tf0054

Shinichi Yamada

주식회사 NTT데이터 근무. 입사 이후 OSS를 이용한 시스템 기반의 설계/구축/평가 담당. 최근에는 Hadoop을 중심으로 한 시스템 기반의 설계/구축/평가와 더불어 효율적인 MapReduce를 사용하는 방법을 검토하고 있다.

Kosuke Saruta

주식회사 NTT데이터 근무. 2009년 입사부터 Hadoop을 시작으로 하는 OSS의 도입지원과 기술검증 등 기술개발을 담당. 지금까지 수백 대 규모의 Hadoop cluster를 구축하는 등 application의 설계지원도 시행. 최근에는 RDBMS부터 Hive의 업무 migration과 Pig의 도입지원 등을 하고 있다.

Takuya Ueshin

Web 계열 개발회사에서 광고시스템과 Access 분석에 종사한 후 프리랜서. 업무를 통해서 알게 된 Hadoop과 특히 HBase에 열중해 자택에서 HBase cluster를 운영 중. 현재는 주식회사 Nautilus technologies에서 근무하고 있다. twitter: @ueshin

Ryu Kobayashi

최근에는 주로 Cloud를 이용한 개발, Hadoop을 이용한 MapReduce의 개발, NoSQL을 이용한 개발을 하고 있다. 또한, Cassandra는 Open source의 GUI(http://code.google.com/a/apache-extras.org/p/ cassandra-gui/)를 공개하고 있다. 번역서로 [Cassandra(O’REILLY)] 등이 있다.

twitter: @ryu_kobayashi

역자 소개

  김명진

  공학박사(통신 및 신호처리 전공) webzealer@ssu.ac.kr

  동양미래대학교 겸임교수, 외래교수(숭실대학교, 한국방송통신대학교)

  - 학부: C/C++/HTML5/웹 프로그래밍/컴퓨터그래픽스/알고리즘/데이터정보처리

  - 대학원: 네트워크시뮬레이션/영상통신

 저서

 『인터넷 프로토콜』(SK Telecom 인재연구원 1997)

 『네트워크 기초과정』(SK Telecom 인재연구원 1998)

 『프론트페이지 2002 Step by Step』(정보문화사 2001)

 『프론트페이지 2002 Inside Out』(정보문화사 2002)

 『예제가 가득한 C언어 길라잡이』(정보문화사 2006, 2012)

 『속이 깊은 HTML5&CSS3』(생능출판사 2014)

주요 프로젝트

교육과학기술부, 차세대 정보컴퓨팅 기술개발사업 - MIMO HCI S/W 원천기술 개발

정보통신산업진흥원, 서비스 로봇을 위한 멀티모달 지능형 인간-로봇 상호작용 기술 개발

LG전자(주), 압축 동영상의 해상도 및 화질 개선 연구, 양방향 HD급 실시간 A/V 압축전송기술 개발

삼성전자(주), 모바일향 표준 이미지 코덱 SIMD 가속 기술 개발

(주)엔에스테크놀러지(주), H.264 부호화 방식의 성능 최적화 개발

한국전자통신연구원(ETRI), 저전력 H.264 Morion Compensator IP 및 90nm용 VLC/VLD Fim IP 개발

 

전인석

- 일본 (주)아르테미스 마케팅 담당.

- 일본 (주)JENET 부사장.

- 일본 SPNET COMMUNICATIONS Inc CEO

- 현재 아이비콘 관련 사업

 

김성희

일본 문화여자대학 복장학과 크리에이티브 전공, 동 대학원 석사과정.

SPNET COMMUNICATIONS 상품기획 담당.

현재 한국 문화센터 양장 강의 중.  

차례

∙크레딧

∙시작하며

1장 시스템 구축/운용 Hacks Hacks 

01 Hadoop 동작에 필요한 Parameter

02 Hadoop용 node의 Linux OS 설정

03 Master Node의 HA화

04 Hadoop에 관련된 통계정보

05 HDFS의 업그레이드

06 Sqoop의 구조와 동작

07 PostgreSQL에서의 동작

08 Azkaban 입문

09 Azkaban의 이용

2장 Application 개발 Hacks

10 Cluster 외부로부터 Hadoop의 조작

11 InMapperCombiner

12 사용자 정의 Writable형을 만드는 방법

13 사용자 Partitioner를 만드는 방법

14 DistributedCache의 사용방법

15 CombineFileInputFormat

16 MapReduce 작업 테스트하기

17 보조 정렬(Secondary sort)

18 Map 사이드 조인

19 Reduce 사이드 조인

20 다단 MapReduce

21 InputFormat/OutputFormat의 사용방법

22 Cassandra와의 연계

23 API로 HDFS 조작

24 MapReduce 작업 분석

25 Hadoop에서의 압축 파일 취급

3장 HBase Hacks

26 Bulk 로드 도구

27 MySQL에서 가져오기

28 HFile에 직접 액세스하는 MapReduce

29 pre-split 테이블 만들기

30 Coprocessor 만드는 법

31 사용자 Filter 만드는 법

32 export/import 도구

33 클러스터 복제(Cluster Replication)

4장 Hive Hacks

34 SQL과 HiveQL의 다른 점

35 Hive의 실제 운용에서 관리해야 할 것

36 쿼리의 고속화(입문편)

37 쿼리의 고속화(응용편)

38 사용자 정의 함수

39 다른 시스템과 연계하기

40 자체 처리를 통합하기

41 다중 사용자의 이용

42 인덱스의 사용

43 Hive 로그

44 Sqoop에서 데이터 로드

45 차분 데이터의 교환

5장 Pig Hacks 

46 custom storage 작성방법

47 PigLatin과 SQL의 차이

48 사용자 정의 함수

49 Embedded Pig

50 MapReduce로의 변환 분석

51 Pig에서 바로 이용할 수 있는 함수 301

6장 Mahout Hacks

52 Mahout 입문

53설치와 실행방법

54 기초 용어 배우기

55 추천하기(Recommend)를 실행

56 연계분석

57 예측 모델 만들기

58 기계학습과 MapReduce

59 자체 드라이버 만들기

60 Mahout을 이용한 클러스터링

7장 ZooKeeper Hacks

61 ZooKeeper의 API

62 ZooKeeper의 액세스 제어

63 Eclipse를 사용한 개발

64 ZooInspector 사용

65 REST에서 ZooKeeper 사용

66 FUSE에서 ZooKeeper 사용

67 tickTime 구조 이해하기

68 ZAB의 구조 이해하기

69 리더 선택의 구조 이해하기

70 상태와 역할을 이해하기

71 그룹핑․가중치 이용하기

72 분산 애플리케이션 구축

72 ZooKeeper를 중심으로 한 시스템(BookKeeper)

74 BookKeeper를 사용한 시스템

column 1 Cloudera’s Distribution including Apache Hadoop(CDH)에 대해서

column 2 MapR에 대해서

∙찾아 보기

∙와우북스 HACKS 시리즈 소개