Posts
6 posts
하둡 (Hadoop)이란? 대체 어디에 쓰이길래 빅데이터 하면 꼭 나올까?
하둡이 뭐냐고? 한마디로 말하면 "엄청 많은 데이터를 여러 대의 컴퓨터에 나눠 저장하고 동시에 처리하는 시스템"이다. 빅데이터라는 단어를 들어본 적 있다면 Hadoop은 거의 세트로 따라다닌다. 개발자만 알면 되는 기술이라고 생각하기 쉬운데 요즘은 마케터든 기획자든 데이터 흐름을 이해해야 할 일이 많아져서 기본 개념 정도는 알아두면 확실히 도움이 된다. 너무 깊이 들어가지 않고 핵심만 정리해 봤다. 1. 노란 코끼리의 탄생 2003년 구글이 자사 데이터 처리 방식을 논문으로 공개했다. 이걸 본 개발자 더그 커팅이 "우리도 이런 걸 오픈소스로 만들자"라고 달려든 게 시작이다. 그렇게 2006년 아파치 재단에서 공.......

하둡 빅데이터 처리의 핵심 기술
하둡 빅데이터 처리의 핵심 기술 요즘같이 빅데이터 시대에는 방대한 양의 데이터를 효과적으로 저장하고 처리하는 것이 중요합니다. 이러한 요구를 충족시키기 위해 탄생한 기술 중 하나가 바로 하둡(Hadoop)입니다. 하둡은 빅데이터 처리의 핵심 기술로, 대용량 데이터를 분산 처리하고 효율적으로 관리할 수 있도록 설계된 오픈소스 프레임워크입니다. 이번 포스팅에서는 하둡의 정의, 구성 요소, 주요 특징, 그리고 장단점에 대해 자세히 알아보겠습니다. ▶ 하둡 빅데이터 처리의 핵심 기술 목차 1. 하둡의 정의 2. 하둡의 핵심 기술 3. 하둡의 주요 특징 4. 하둡의 장단점 5. 하둡의 활용 사례 1. 하둡의 정의 하둡은 아파치 소프트웨어(Ap.......

빅데이터 오픈소스 기술 하둡, 아파치 스파크 그리고 데이터브릭스 (Databricks)
인공지능을 이야기할 때 빼놓을 없는 것이 빅데이터입니다. 빅데이터 분석에는 인공지능이 필요하고, 인공지능의 정확도를 빅데이터가 뒷받침하는 상호 보완적 관계이기 때문이죠. 인공지능이 핫한 만큼 빅데이터 생태계도 많은 주목을 받고 있는데요. 오픈소스 프레임을 대표하는 하둡과 아파치 스파크, 그리고 아파치 스파크 시대를 열며 급성장한 Databricks에 대해 살펴보겠습니다. Databricks는 글로벌 빅데이터 프로세싱 기업입니다. 이전 포스팅에서 MLOps(기계 학습 운영) 관련 내용과 Databricks Data intelligence Day를 살펴봤었는데요. 이번에서 아파치 스파크와 관련된 탄생 배경과 히스토리 쪽을 좀 살펴보겠습니다. Databricks 플.......

데이터브릭스 (Databricks), 아파치 스파크, 하둡 알아보기
2024년 현재 IT 산업에서 최대 이슈는 인공지능입니다. 가깝게는 생성형 AI부터, 로봇, 모빌리티, 유비쿼터스 등 IT 관련 업종 뿐만 아니라 전혀 접점이 없을 것 같은 산업 분야까지 아우르며 가파른 성장을 보이고 있습니다. 이러한 인공지능은 빅데이터를 기반으로 머신러닝 알고리즘을 통해 학습을 하고, 이렇게 학습한 결과를 바탕으로 유의미한 결과를 만들어 내는 구조입니다. 즉 'Big Data'와 'AI'는 뗄레야 뗄 수 없는 상호보완적인 관계라 할 수 있습니다. Hadoop & Apache Spark 빅데이터 대해 관심이 있거나 관련해서 일을 해본 경험이 있는 경우 이를 대표하는 오픈 소스 프레임워크인 하둡(Hadoop)과 아파.......
![[굿즈] 웹툰 『악역의 엔딩은 죽음뿐』 트럼프 카드 : 아는 장면이라도 플레잉 카드로 수집하는 이 맛](https://img.zoomtrend.com/2026/06/05/1780650880-SE-1c22cf84-12af-4fb2-95c5-c6354bd47dfd.jpg)


