NVIDIAが提唱している分離型推論。コンテキスト処理フェーズと生成フェーズを異なるGPUで行なうことで性能向上、そしてリソースの利用効率向上を目指す

NVIDIAが提唱している分離型推論。コンテキスト処理フェーズと生成フェーズを異なるGPUで行なうことで性能向上、そしてリソースの利用効率向上を目指す