๐ฌ Google TurboQuant โ AI ๋ชจ๋ธ ๋ฉ๋ชจ๋ฆฌ๋ฅผ 6๋ฐฐ ์ค์ด๋ ์์ถ ์๊ณ ๋ฆฌ์ฆ
Google ์ฐ๊ตฌํ์ด ICLR 2026์์ ๋ฐํํ TurboQuant๊ฐ AI ๊ฐ๋ฐ์ ์ปค๋ฎค๋ํฐ์์ ํฐ ๊ด์ฌ์ ๋ฐ๊ณ ์๋ค. ํต์ฌ์ ๊ฐ๋จํ๋ค. LLM ์ถ๋ก ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 6๋ฐฐ ์ค์ด๋ฉด์ ์ ํ๋ ์์ค์ ๊ฑฐ์ ์๋ค.
TurboQuant๊ฐ ํด๊ฒฐํ๋ ๋ฌธ์ ๋ KV ์บ์{{kv-cache}}(Key-Value Cache)๋ค. KV ์บ์๋ ํธ๋์คํฌ๋จธ{{transformer-model}} ๋ชจ๋ธ์ด ์ด์ ํ ํฐ์ ์ ๋ณด๋ฅผ ์ ์ฅํด๋๋ ์ผ์ข
์ ์์
๋ฉ๋ชจ๋ฆฌ์ธ๋ฐ, ์ปจํ
์คํธ ์๋์ฐ{{context-window}}๊ฐ ๊ธธ์ด์ง์๋ก ์ด ๋ฉ๋ชจ๋ฆฌ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. 100๋ง ํ ํฐ ์ปจํ
์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ค๋ฉด KV ์บ์{{kv-cache}}๋ง์ผ๋ก ์์ญ GB์ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ ์ํฉ์ด๋ค.
TurboQuant๋ 2๋จ๊ณ ์์ถ ํ์ดํ๋ผ์ธ์ผ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ PolarQuant์์ ๋๋ค ์ง๊ต ํ์ ์ ์ ์ฉํด ๋ฒกํฐ์ ์๋์ง๋ฅผ ๊ท ์ผํ๊ฒ ๋ถ์ฐ์ํจ๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ์์ํ{{quantization}}๋ Johnson-Lindenstrauss(QJL) ์์ถ์ ์ ์ฉํด ๊ฐ๋น 3๋นํธ๊น์ง ์ค์ธ๋ค. ๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ํ๋ จ ๋ฐ์ดํฐ๋ ์บ๋ฆฌ๋ธ๋ ์ด์
์์ด ์ด๋ค ํธ๋์คํฌ๋จธ{{transformer-model}} ์ํคํ
์ฒ์์๋ ์๋ํ๋ค๋ ๊ฒ์ด๋ค.
์ค์ ์ฑ๋ฅ๋ ๊ฒ์ฆ๋๋ค. NVIDIA H100 GPU์์ 4๋นํธ TurboQuant๋ฅผ ์ ์ฉํ๋ฉด, 32๋นํธ ๋๋น ์ดํ
์
๊ณ์ฐ ์๋๊ฐ ์ต๋ 8๋ฐฐ ๋นจ๋ผ์ง๋ค. ์คํ์์ค ์ปค๋ฎค๋ํฐ์์๋ ์ด๋ฏธ PyTorch ๊ตฌํ์ฒด์ llama.cpp ํตํฉ ๋
ผ์๊ฐ ํ๋ฐํ๊ฒ ์งํ๋๊ณ ์๋ค.
๋ ผ๋ฌธ์ 4์ 25์ผ ๋ฆฌ์ฐ๋ฐ์๋ค์ด๋ฃจ์์ ์ด๋ฆฌ๋ ICLR 2026์์ ๊ณต์ ๋ฐํ๋๋ค. ๊ฐ์ ์๋ฒ๋ก 6๋ฐฐ ๋ ๋ง์ ์ฌ์ฉ์๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค๋ ์๋ฏธ์ด๋, GPU ๋น์ฉ์ ๋ฏผ๊ฐํ ํ๊ตญ AI ์คํํธ์ ๋ค์๊ฒ๋ ์ค์ง์ ์ธ ๋น์ฉ ์ ๊ฐ ๋ฐฉ๋ฒ์ด ๋ ์ ์๋ค.