Modelos de IA

Nexo Whisper soporta múltiples engines de transcripción. Algunos corren 100% local en tu Mac; otros usan la nube. Acá explicamos cada uno en detalle.

Familia Whisper (local)

Los modelos Whisper de OpenAI corren en tu Mac usando el Neural Engine de Apple Silicon. Sin internet, sin privacidad comprometida.

Whisper Base

Tamaño: 142 MB
Idiomas: solo inglés
Velocidad: muy rápida
Cuándo usarlo: si tenés poco disco, hablás en inglés y querés empezar sin descargar mucho.

Whisper Small

Tamaño: 466 MB
Idiomas: 99 idiomas
Balance: buen balance disco/calidad
Cuándo usarlo: primer modelo multilingual recomendado para Macs con 8 GB.

Whisper Medium

Tamaño: 1.5 GB
Idiomas: 99 idiomas
Cuándo usarlo: cuando Small no tiene suficiente precisión y el disco lo permite.

Whisper Large v3 Turbo

Tamaño: 1.6 GB
Idiomas: 99 idiomas
Precisión: la más alta disponible en local
Cuándo usarlo: si tenés M2/M3 con 16 GB o más y querés lo mejor.

Whisper Large v3 Turbo Quantized

Tamaño: 547 MB
Idiomas: 99 idiomas
El sweet spot: ofrece 95% de la precisión del Large en un tercio del tamaño.
Cuándo usarlo: la mayoría de los usuarios van a preferir este. Recomendado para M1 con 8 GB.

¿Qué es Quantized?

Los modelos quantizados comprimen los pesos del modelo de 32-bit a 4-bit. Ocupan mucho menos espacio con pérdida mínima de calidad (normalmente imperceptible en dictado cotidiano).

Familia Parakeet (local, más rápida)

Parakeet es una arquitectura distinta a Whisper, desarrollada por NVIDIA, que prioriza velocidad.

Parakeet V2

Tamaño: 474 MB
Idiomas: solo inglés
Velocidad: 9.9/10 — el modelo más rápido disponible
Cuándo usarlo: si hablás solo en inglés y la velocidad es tu prioridad.

Parakeet V3 (default)

Tamaño: ~500 MB
Idiomas: multilingual
Velocidad: ultrarrápida con buena precisión multilingual
Cuándo usarlo: es el modelo por defecto. Excelente para la mayoría de los usuarios.

Whisper Large v3 Turbo via Groq (cloud)

Groq es un proveedor de inferencia cloud ultrarrápido. Ejecuta Whisper Large en sus propios chips (LPUs) y devuelve resultados en segundos.

Requiere: API key de Groq (plan gratuito con límites generosos en console.groq.com).
Cuándo usarlo: si tenés una Mac Intel o querés máxima precisión sin bajar el modelo de 1.6 GB.
Privacidad: el audio se envía a los servidores de Groq para transcripción.

Cómo configurarlo:

Andá a Ajustes → Transcripción → Modelo.
Seleccioná Groq (Whisper Large Turbo).
Ingresá tu API key de Groq.

Custom (OpenAI-compatible)

Si tenés un endpoint de transcripción propio compatible con la API de OpenAI, podés apuntarle a él.

Ingresá la Base URL del endpoint.
Ingresá la API key si es necesaria.
Ingresá el nombre del modelo.

Útil para uso corporativo con endpoints privados o para modelos hosteados en OpenRouter.

Dónde se guardan los modelos

Los modelos descargados se guardan en:

~/Library/Application Support/com.prakashjoshipax.VoiceInk/Models/

Podés borrar modelos manualmente desde esta carpeta si necesitás liberar espacio. La app los detecta automáticamente al iniciar.

Próximos pasos

Modelos recomendados — tabla comparativa para elegir rápido.
Modelos Whisper personalizados — usá modelos externos de Hugging Face.

General

Historial