Search Results: TokenBatching

Token-Count-Based Batching Slashes Embedding Inference Latency by 50%

December 24, 2025 2 min read

Voyage AI introduces token-count-based batching to optimize embedding model inference for short queries, leveraging padding removal techniques and Redis-based queueing. This approach reduces GPU latency by half while cutting resource usage, addressing inefficiencies in search and recommendation systems.