"Transformer์ ์น๋ช ์ ์ฝ์ ์ ํด๊ฒฐํ ํ์ ์ด ๋ํ๋ฌ์ต๋๋ค." 2023๋ 11์ Albert Gu์ Tri Dao์ ๋ ผ๋ฌธ "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"๋ AI ์ปค๋ฎค๋ํฐ๋ฅผ ํ๋ค์ด๋์์ต๋๋ค.์ง๋ 12๋ ๊ฐ ์ ๋ ํ์ค์ด์๋ Transformer ์ํคํ ์ฒ์ ์น๋ช ์ ํ๊ณ์ธ O(Nยฒ) ์ด์ฐจ ๋ณต์ก๋(Quadratic Bottleneck)๋ฅผ O(N) ์ ํ ๋ณต์ก๋๋ก ํด๊ฒฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค.์ค์ ๋ก Mamba 3B ๋ชจ๋ธ์ ๊ฐ์ ํฌ๊ธฐ์ Transformer๋ณด๋ค ์ฐ์ํ๋ฉฐ, 2๋ฐฐ ํฌ๊ธฐ Transformer์ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.๋ ๋๋ผ์ด ๊ฒ์, 2025๋ ์ต์ ์ฐ๊ตฌ์์ Mamba๊ฐ ๋น๋์ค, ์ด๋ฏธ์ง, ์๋ฃ, ์์ฑ ๋ฑ ๊ฑฐ์ ๋ชจ๋ ๋ถ์ผ์ ์ ์ฉ๋๋ฉฐ 5๋ฐฐ ์ด์ ๋น ๋ฅธ ์ถ๋ก ์๋์ 98% ๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ์ ๋ฌ์ฑํ๋ค๋ ์ ์ ๋๋ค. ์ด ํฌ์คํ ์์๋ Transformer์ ์ด์ฐจ ๋ณต์ก๋ ๋ฌธ์ , ์ํ ๊ณต๊ฐ ๋ชจ๋ธ์ ๊ธฐ์ด, ์ ํ์ ์ค์บ(Selective Scan) ๋ฉ์ปค๋์ฆ, Mamba์ ํ๋์จ์ด ์ต์ ํ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์์ฉ ์ฌ๋ก์ ๋ฏธ๋ ์ ๋ง๊น์ง ์๋ฒฝํ๊ฒ ๋ถ์ํฉ๋๋ค. #KernelFusion #Mamba #O(Nยฒ)๋ณต์ก๋ #ParallelScan #SelectiveStateSpace #SSM #StateSpaceModel #Transformerํ๊ณ #VideoMamba #VisionMamba #๋ด๋ด๋คํธ์ํฌ #์ ํ์ ์ค์บ #์ ํ์๊ฐ #์ํ์ค๋ชจ๋ธ #ํ๋์จ์ด์ต์ ํ Read the full article


















