๐Ÿ”ฌ Google TurboQuant โ€” AI ๋ชจ๋ธ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 6๋ฐฐ ์ค„์ด๋Š” ์••์ถ• ์•Œ๊ณ ๋ฆฌ์ฆ˜

๐Ÿ”ฌ Google TurboQuant โ€” AI ๋ชจ๋ธ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 6๋ฐฐ ์ค„์ด๋Š” ์••์ถ• ์•Œ๊ณ ๋ฆฌ์ฆ˜

Google ์—ฐ๊ตฌํŒ€์ด ICLR 2026์—์„œ ๋ฐœํ‘œํ•  TurboQuant๊ฐ€ AI ๊ฐœ๋ฐœ์ž ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ํฐ ๊ด€์‹ฌ์„ ๋ฐ›๊ณ  ์žˆ๋‹ค. ํ•ต์‹ฌ์€ ๊ฐ„๋‹จํ•˜๋‹ค. LLM ์ถ”๋ก  ์‹œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ 6๋ฐฐ ์ค„์ด๋ฉด์„œ ์ •ํ™•๋„ ์†์‹ค์€ ๊ฑฐ์˜ ์—†๋‹ค.

TurboQuant๊ฐ€ ํ•ด๊ฒฐํ•˜๋Š” ๋ฌธ์ œ๋Š” KV ์บ์‹œ{{kv-cache}}(Key-Value Cache)๋‹ค. KV ์บ์‹œ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ{{transformer-model}} ๋ชจ๋ธ์ด ์ด์ „ ํ† ํฐ์˜ ์ •๋ณด๋ฅผ ์ €์žฅํ•ด๋‘๋Š” ์ผ์ข…์˜ ์ž‘์—… ๋ฉ”๋ชจ๋ฆฌ์ธ๋ฐ, ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ{{context-window}}๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ์ด ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•œ๋‹ค. 100๋งŒ ํ† ํฐ ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ ค๋ฉด KV ์บ์‹œ{{kv-cache}}๋งŒ์œผ๋กœ ์ˆ˜์‹ญ GB์˜ GPU ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•œ ์ƒํ™ฉ์ด๋‹ค.

TurboQuant๋Š” 2๋‹จ๊ณ„ ์••์ถ• ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ PolarQuant์—์„œ ๋žœ๋ค ์ง๊ต ํšŒ์ „์„ ์ ์šฉํ•ด ๋ฒกํ„ฐ์˜ ์—๋„ˆ์ง€๋ฅผ ๊ท ์ผํ•˜๊ฒŒ ๋ถ„์‚ฐ์‹œํ‚จ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์–‘์žํ™”{{quantization}}๋œ Johnson-Lindenstrauss(QJL) ์••์ถ•์„ ์ ์šฉํ•ด ๊ฐ’๋‹น 3๋น„ํŠธ๊นŒ์ง€ ์ค„์ธ๋‹ค. ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋‚˜ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ์—†์ด ์–ด๋–ค ํŠธ๋žœ์Šคํฌ๋จธ{{transformer-model}} ์•„ํ‚คํ…์ฒ˜์—์„œ๋„ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์‹ค์ œ ์„ฑ๋Šฅ๋„ ๊ฒ€์ฆ๋๋‹ค. NVIDIA H100 GPU์—์„œ 4๋น„ํŠธ TurboQuant๋ฅผ ์ ์šฉํ•˜๋ฉด, 32๋น„ํŠธ ๋Œ€๋น„ ์–ดํ…์…˜ ๊ณ„์‚ฐ ์†๋„๊ฐ€ ์ตœ๋Œ€ 8๋ฐฐ ๋นจ๋ผ์ง„๋‹ค. ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ๋„ ์ด๋ฏธ PyTorch ๊ตฌํ˜„์ฒด์™€ llama.cpp ํ†ตํ•ฉ ๋…ผ์˜๊ฐ€ ํ™œ๋ฐœํ•˜๊ฒŒ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋‹ค.

๋…ผ๋ฌธ์€ 4์›” 25์ผ ๋ฆฌ์šฐ๋ฐ์ž๋„ค์ด๋ฃจ์—์„œ ์—ด๋ฆฌ๋Š” ICLR 2026์—์„œ ๊ณต์‹ ๋ฐœํ‘œ๋œ๋‹ค. ๊ฐ™์€ ์„œ๋ฒ„๋กœ 6๋ฐฐ ๋” ๋งŽ์€ ์‚ฌ์šฉ์ž๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ˆ, GPU ๋น„์šฉ์— ๋ฏผ๊ฐํ•œ ํ•œ๊ตญ AI ์Šคํƒ€ํŠธ์—…๋“ค์—๊ฒŒ๋Š” ์‹ค์งˆ์ ์ธ ๋น„์šฉ ์ ˆ๊ฐ ๋ฐฉ๋ฒ•์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

ํ•ด์‹œํƒœ๊ทธ
GoogleTurboQuantKV์บ์‹œ์–‘์žํ™”ICLR 2026LLM ์ถ”๋ก