Quantization量子化(りょうしか)上級Models & Architecture低精度の数値を使ってAIモデルのサイズを縮小し推論を高速化する技術。品質の低下は最小限。なぜ重要か量子化により、スマホやノートパソコンなどの消費者向けハードウェアで大規模言語モデルを実行できるようになります。実際の活用例1万ドルのGPUサーバーの代わりに、MacBookで4ビット量子化Llamaモデルを実行する。