[BigData] Spark 개요 정리

안녕하세요 오늘은 BESPIN GLOBAL Innovate AI실 김철환님이 작성해주신 [BigData] Spark 개요 정리에 대해 소개해드리도록 하겠습니다.

3.1 속도

Hadoop 맵리듀스보다 100배 빠른 속도로 워크로드를 실행할 수 있습니다.
Spark는 DAG(Directed Acyclic Graph) 스케줄러, 쿼리 최적화 도구, 물리적 실행 엔진을 사용하여 일괄 처리 데이터와 스트리밍 데이터 모두에 대해 고성능을 달성합니다.

3.2 사용 편의성

Spark는 병렬 앱을 쉽게 빌드할 수 있게 해주는 상위 수준의 연산자를 제공합니다.
Scala, Python, R, SQL 셀에서 대화형으로 Spark를 사용하여 애플리케이션을 바르게 작성할 수 있습니다.

3.3 보편성

Spark는 SQL, DataFrame, 머신러닝용 MLib, GraphX, Spark Streaming을 비롯한 다양한 라이브러리를 지원합니다.
이러한 라이브러리를 동일한 애플리케이션에서 원활하게 결합할 수 있습니다.

3.4 오픈 소스 프레임워크

사용하는 개발자들이 많아 커뮤니티가 활성화 되어 있어 문제 발생시 해결도 지원하므로 빠르게 해결이 가능합니다.

4. 기업에서의 활용

넷플릭스, 야후, 이베이와 같은 회사에서 8,000개 이상의 노드 클러스터에서 여러 빅데이터들을 종합적으로 처리하면서 대규모로 Spark를 사용합니다.

또한 많은 기업들이 Spark를 사용하여 구조화 또는 구조화되지 않은 대량의 실시간, 아카이브 데이터를 처리 및 분석하는 작업을 합니다.

5. Python Script와 Spark 성능 비교

용량이 큰 데이터 처리 성능 비교를 본격적으로 진행하면 다음과 같습니다.

(직접 진행하지 못하였으나 비교를 진행한 블로그를 찾아 공유 합니다.)

5.1 개요

1.5 GB 크기로 이루어진 txt 파일을 input으로 받아 일요일이 몇 개 존재하는지 알아내는 코드를 진행하였고 똑같은 local PC에서 standalone(독립형)으로 진행하였습니다.

Python 스크립트 즉, Pandas로 진행 하였을 때 걸린 시간과 Spark로 진행하였을 때 걸린 시간을 비교하였으며 Spark로 단순하게 사용하였을 때와 아닌 경우의 차이를 비교한 것입니다.

5.2 스크립트 생성

단순하게 스크립트 생성을 하였고 한 줄씩 값을 읽어와서 data object로 변환 후 일요일이면 count를 1 올립니다.

Python Script

from datetime import datetime
import calendar

start_time = datetime.now()
print(f'start time: {start_time}')

with open('/Users/yaboong/test_big_data.txt', 'r') as f:
    lines = f.readlines()
    sunday_cnt = 0     for line in lines:
        line_value = line.strip()
        date = datetime.strptime(line_value, '%Y%m%d')
        weekday = date.weekday()
        sunday_cnt = sunday_cnt + 1 if calendar.day_name[weekday] == 'Sunday' else sunday_cnt

end_time = datetime.now()
print(f'end time: {end_time}')
print(f'SUNDAY COUNT: {sunday_cnt}')
print(f'elapsed time: {end_time - start_time}')

Python 스크립트 실행 결과는 다음과 같습니다.

start time: 2018-01-01 22:40:04.362794
end time: 2018-01-01 23:34:53.773569
elapsed time: 0:54:49.410775
SUNDAY COUNT: 25040000

Process finished with exit code 0

Spark

같은 데이터를 가지고 Spark를 이용하여 실행하였을 때 걸린 시간은 다음과 같습니다.

18/01/17 22:22:46 INFO DAGScheduler: Job 0 finished: count at SundayCount.scala:33, took 98.203385 s

6. Python Pandas와 Spark 데이터 활용

Python 패키지인 pandas와 Spark를 비교하는 이유는 현재 프로젝트에서 데이터를 DataFrame으로 read하여 작업하는 부분이 있기 때문에 비교를 해 보았습니다. (여기서 데이터는 10 GB 이상 되는 데이터를 말합니다.)

6.1 Pandas란?

우선 Pandas는 쉽고 직과적인 관계형 또는 분류된 데이터로 작업할 수 있도록 설계된 데이터 구조를 제공하는 Python 패키지입니다.

예를 들어 CSV 파일이나 Parquet 파일 등 데이터를 구조화(행, 열) 해서 read해 주는 역할을 해줍니다.

6.2 Pandas와 Spark의 공통점과 차이점

Pandas와 Spark는 DataFrame이라는 SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 테이블 형식 데이터를 다루게 될 때 적합합니다.
대부분의 데이터처리에는 Pandas 라이브러리를 통해 해결하지만 Spark를 사용하는 이유는 데이터의 크기 때문입니다.
Pandas는 통상적으로 Spark보다 작은 데이터 처리에 대해서는 속도가 빠르지만 10 GB 이상의 파일 처럼 크기가 커지게 되면 Pandas 경우 메모리 부족으로 성능이 저하되거나 Error가 발생합니다.

하기에 2.43 GB 크기의 데이터를 read만 할 때 어떻게 성능이 다른지 비교해 보았습니다.

비교 위에서 했던 방법처럼 간단합니다.

2.43 GB 데이터를 read하여 걸린 시간을 확인합니다.
특정 컬럼 값을 카운트 하는 로직에 대해 얼마나 걸리는지 확인하비다.

Python Pandas와 Spark(Pyspark) 비교하였으며 단지 데이터를 read하는 부분에서도 성능차이를 보이는 것을 알 수 있습니다.

6.2.1 Pandas

Pandas에서 2.43 GB 데이터를 read한 시간은 다음과 같습니다.

start time: 2023-10-23 09:35:55.509350
end time: 2023-10-23 09:36:38.948910
elapsed time: 0:00:43.439560

특정 컬럼 값에 대한 카운트 결과는 다음과 같습니다.

elapsed time: 0:00:01.000059
특정 값 Count:  494

정리하자면, Pandas에서 데이터를 read한 시간은 43초, 특정 컬럼 값을 카운트한 시간은 1초 정도 걸린 것으로 나타났습니다.

6.2.2 Spark (Pyspark)

Spark(Pyspark)에서 2.43 GB 데이터를 read한 시간은 다음과 같습니다.

start time: 2023-10-23 09:35:09.611832
end time: 2023-10-23 09:35:13.727833
elapsed time: 0:00:04.116001

특정 컬럼 값에 대한 카운트 결과는 다음과 같습니다.

elapsed time: 0:00:00.010025
특정 값 Count:  494

마찬가지로 정리하자면, Spark에서 데이터를 read한 시간은 4초, 특정 컬럼 값을 카운트한 시간은 0.01초 정도 걸린 것으로 나타났습니다.

6.2.3 Pandas와 Spark 정리

위에서 진행했던 테스트를 표로 정리하자면 아래와 같습니다.

이처럼 큰 양의 데이터를 처리할 때 Pandas 보다는 Spark를 활용하여 진행하는 것이 더 멘탈(?)에 도움을 줄 수 있으며 빠르게 처리가 가능한 것을 알 수 있습니다.

테스트한 데이터가 큰 양은 아니지만 이 정도 데이터 사이즈에서도 차이가 난 부분을 확인하여 유추할 수 있습니다.

여기까지 ‘Spark 개요 정리’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다.

Written by 김 철환 / innovate AI실

BESPIN GLOBAL

[BigData] Spark 개요 정리

목차

3.1 속도

3.2 사용 편의성

3.3 보편성

3.4 오픈 소스 프레임워크

관련글

목차

3.1 속도

3.2 사용 편의성

3.3 보편성

3.4 오픈 소스 프레임워크

이 글 공유하기:

관련글