junyeokk
Blog
Parallel Computing·2025. 10. 16

FLOPS - GPU와 CPU 성능 비교

FLOPS란 무엇인가

FLOPS는 Floating-Point Operations Per Second의 약자로, 1초당 수행할 수 있는 부동소수점 연산 횟수를 나타낸다. 컴퓨터의 계산 성능을 측정하는 대표적인 지표다.

부동소수점 연산이란?
3.14, 0.001, 1.23×10⁸ 같은 실수 계산을 의미한다. 과학 계산, 그래픽 처리, 머신러닝 등 대부분의 고성능 컴퓨팅에서 핵심적인 연산이다.

FLOPS는 단위가 매우 크기 때문에, 보통 다음 단위를 사용한다.

  • GFLOPS = 10⁹ FLOPS (기가플롭스)
  • TFLOPS = 10¹² FLOPS (테라플롭스)
  • PetaFLOPS = 10¹⁵ FLOPS (페타플롭스)

왜 FLOPS로 측정하는가

클럭 속도(GHz)만으로는 실제 성능을 알 수 없다. 3GHz CPU가 2GHz CPU보다 무조건 빠르지 않다. 코어 수, 명령어 처리 효율, 메모리 대역폭 등 다양한 요소가 영향을 미치기 때문이다.

FLOPS는 이 모든 요소를 종합하여, 실제로 얼마나 많은 계산을 수행할 수 있는지 직접 측정한다. 특히 과학 계산과 데이터 분석 분야에서 실질적인 성능 지표로 활용된다.

CPU 성능

현대 PC용 CPU의 FLOPS 성능을 살펴보자.

Intel Skylake-X 시리즈(2017년 출시)를 예로 들면, 단정밀도(FP32) 기준으로 다음과 같다.

  • Core i7-7740X (4코어): 638.4 GFLOPS
  • Core i9-7900X (10코어): 976.0 GFLOPS

고성능 PC CPU의 최대 성능은 약 1 TFLOPS 수준이다. 코어 수를 늘리고 클럭을 높여도, CPU 아키텍처의 특성상 이 수준을 크게 넘기 어렵다.

GPU 성능

GPU는 CPU와 비교할 수 없을 만큼 높은 FLOPS 성능을 제공한다.

Tesla V100 (2017년, 데이터센터용)

  • 단정밀도(FP32): 28.26 TFLOPS
  • 4개를 연결하면 112-125 TFLOPS

GeForce RTX 3090 (2020년, 소비자용)

  • 단정밀도(FP32): 36 TFLOPS
  • 4개를 연결하면 144 TFLOPS

단일 GPU가 고성능 CPU보다 30배 이상 빠르다. 이것이 딥러닝, 빅데이터 분석에서 GPU를 필수로 사용하는 이유다.

NVLink와 SLI
여러 GPU를 연결하여 성능을 배가할 수 있다. NVLink는 GPU 간 고속 통신을 제공하며, SLI(Scalable Link Interface)는 소비자용 GPU를 연결하는 기술이다. AMD는 Crossfire라는 유사 기술을 제공한다.

슈퍼컴퓨터의 세계

세계에서 가장 빠른 컴퓨터들은 어느 정도 성능일까? TOP500은 전 세계 슈퍼컴퓨터를 FLOPS 성능으로 순위를 매긴다.

2021년 기준 TOP500 1위는 442,010 TFLOPS, 즉 442 PetaFLOPS를 달성했다. 이는 고성능 PC CPU의 약 44만 배에 해당하는 성능이다.

이런 슈퍼컴퓨터는 기상 예측, 우주 시뮬레이션, 신약 개발 등 인류가 직면한 복잡한 계산 문제를 해결하는 데 사용된다.

성능 차이가 의미하는 것

FLOPS 수치의 차이는 단순한 숫자가 아니다. 실제 작업 시간에 직접적인 영향을 미친다.

CPU로 10시간 걸리는 계산이 GPU로는 20분 만에 끝날 수 있다. 머신러닝 모델 학습이 수 주에서 수 시간으로 단축된다. 이는 연구 속도를 획기적으로 높이고, 이전에는 불가능했던 규모의 문제를 해결 가능하게 만든다.

다만 모든 문제가 GPU에 적합한 것은 아니다. GPU는 대규모 병렬 처리가 가능한 작업에서만 위력을 발휘한다. 순차적 처리가 필요하거나 작은 데이터셋에서는 CPU가 더 효율적일 수 있다.

참고 자료