Modelos de IA
Nexo Whisper soporta múltiples engines de transcripción. Algunos corren 100% local en tu Mac; otros usan la nube. Acá explicamos cada uno en detalle.
Familia Whisper (local)
Los modelos Whisper de OpenAI corren en tu Mac usando el Neural Engine de Apple Silicon. Sin internet, sin privacidad comprometida.
Whisper Base
- Tamaño: 142 MB
- Idiomas: solo inglés
- Velocidad: muy rápida
- Cuándo usarlo: si tenés poco disco, hablás en inglés y querés empezar sin descargar mucho.
Whisper Small
- Tamaño: 466 MB
- Idiomas: 99 idiomas
- Balance: buen balance disco/calidad
- Cuándo usarlo: primer modelo multilingual recomendado para Macs con 8 GB.
Whisper Medium
- Tamaño: 1.5 GB
- Idiomas: 99 idiomas
- Cuándo usarlo: cuando Small no tiene suficiente precisión y el disco lo permite.
Whisper Large v3 Turbo
- Tamaño: 1.6 GB
- Idiomas: 99 idiomas
- Precisión: la más alta disponible en local
- Cuándo usarlo: si tenés M2/M3 con 16 GB o más y querés lo mejor.
Whisper Large v3 Turbo Quantized
- Tamaño: 547 MB
- Idiomas: 99 idiomas
- El sweet spot: ofrece 95% de la precisión del Large en un tercio del tamaño.
- Cuándo usarlo: la mayoría de los usuarios van a preferir este. Recomendado para M1 con 8 GB.
¿Qué es Quantized?
Los modelos quantizados comprimen los pesos del modelo de 32-bit a 4-bit. Ocupan mucho menos espacio con pérdida mínima de calidad (normalmente imperceptible en dictado cotidiano).
Familia Parakeet (local, más rápida)
Parakeet es una arquitectura distinta a Whisper, desarrollada por NVIDIA, que prioriza velocidad.
Parakeet V2
- Tamaño: 474 MB
- Idiomas: solo inglés
- Velocidad: 9.9/10 — el modelo más rápido disponible
- Cuándo usarlo: si hablás solo en inglés y la velocidad es tu prioridad.
Parakeet V3 (default)
- Tamaño: ~500 MB
- Idiomas: multilingual
- Velocidad: ultrarrápida con buena precisión multilingual
- Cuándo usarlo: es el modelo por defecto. Excelente para la mayoría de los usuarios.
Whisper Large v3 Turbo via Groq (cloud)
Groq es un proveedor de inferencia cloud ultrarrápido. Ejecuta Whisper Large en sus propios chips (LPUs) y devuelve resultados en segundos.
- Requiere: API key de Groq (plan gratuito con límites generosos en console.groq.com).
- Cuándo usarlo: si tenés una Mac Intel o querés máxima precisión sin bajar el modelo de 1.6 GB.
- Privacidad: el audio se envía a los servidores de Groq para transcripción.
Cómo configurarlo:
- Andá a Ajustes → Transcripción → Modelo.
- Seleccioná Groq (Whisper Large Turbo).
- Ingresá tu API key de Groq.
Custom (OpenAI-compatible)
Si tenés un endpoint de transcripción propio compatible con la API de OpenAI, podés apuntarle a él.
- Ingresá la Base URL del endpoint.
- Ingresá la API key si es necesaria.
- Ingresá el nombre del modelo.
Útil para uso corporativo con endpoints privados o para modelos hosteados en OpenRouter.
Dónde se guardan los modelos
Los modelos descargados se guardan en:
~/Library/Application Support/com.prakashjoshipax.VoiceInk/Models/
Podés borrar modelos manualmente desde esta carpeta si necesitás liberar espacio. La app los detecta automáticamente al iniciar.
Próximos pasos
- Modelos recomendados — tabla comparativa para elegir rápido.
- Modelos Whisper personalizados — usá modelos externos de Hugging Face.