¿Cómo funciona dIKta.me sin internet?

dIKta.me ejecuta Whisper V3 Turbo y LLMs locales (Gemma 3, Llama 3) directamente en tu GPU. Ningún audio ni texto sale de tu máquina. Es 100% local por defecto.

¿Qué sistemas operativos soporta dIKta.me?

dIKta.me está disponible para Windows 10+ (x64). macOS y Linux están en la hoja de ruta.

¿Cuánto cuesta dIKta.me?

Prueba gratuita con créditos cloud incluidos. Versión Completa: $20 (pago único) para dictado local ilimitado, todas las funciones y actualizaciones de por vida. Sin suscripción.

¿Qué idiomas soporta el reconocimiento de voz?

Whisper V3 Turbo soporta más de 90 idiomas con detección automática. La traducción bidireccional inglés-español está integrada.

¿Necesito una GPU NVIDIA para usar dIKta.me?

Una GPU NVIDIA se recomienda para STT y LLM locales con máxima velocidad. Sin embargo, también funciona en CPU (más lento) y ofrece un modo cloud con créditos wallet para usuarios sin GPU potente.

EL VIAJE

Construido para Evolucionar.

De un prototipo en Python + Electron a un motor nativo de Windows — y una hoja de ruta que va mucho más lejos. Esta es la historia completa.

El Salto Arquitectónico

V1 probó el concepto. V2 es el motor real. La misma visión, completamente reconstruida.

Uso de Memoria

~300 MB~60 MB

Tiempo de Inicio

10–12 s< 3 s

Tamaño del Instalador

~200 MB~70 MB

Cobertura de Pruebas

~50 tests1,014 tests

Comparativa técnica: dIKta.me V1 vs V2
Métrica	V1 (Prototipo)	V2 (Motor Nativo)
Arquitectura	Python + Electron + ZeroMQ (3 procesos)	C# + WinUI 3 (proceso único)
Memoria	~300 MB	~50–80 MB
Inicio	10–12 s (calentamiento del modelo)	< 3 s (modo cloud)
Instalador	~200 MB	~70 MB (autocontenido)
Stack de Audio	Wrappers pyaudio + pycaw	NAudio + WASAPI nativo
Opciones STT	Solo Whisper (local)	Whisper + Deepgram streaming + Gemini Audio
Opciones LLM	Solo Ollama	Ollama, Gemini, Anthropic, OpenAI, OpenRouter + más
Texto a Voz	Ninguno	KokoroSharp (local) + Deepgram / OpenAI / Gemini (cloud)
Almacenamiento de Secretos	Electron safeStorage	DPAPI (nivel SO, AES-256)
Suite de Pruebas	~50 tests pytest	1,014 tests xUnit (nivel empresarial)

Novedades en V2

La reescritura no fue solo un port — entregó un conjunto de funciones completamente nuevo.

💬

Overlay

Chat Rápido

Ventana de chat flotante activada por atajo. Entrada de texto o voz, salida en Markdown.

🔊

Salida de Voz

Texto a Voz

dIKta.me te responde — 5 motores de voz incluyendo Kokoro ONNX completamente local.

🎙️

Productividad

Macros de Voz

Di una frase disparadora y obtén un bloque de texto completo inyectado. Firmas, plantillas, direcciones.

🔇

Audio

Reducción de Audio

Suprime automáticamente el volumen del sistema de otras apps durante la grabación activa.

🧙

Configuración

Asistente de Primer Uso

Configuración guiada de STT / LLM / TTS para que cualquiera esté listo en minutos.

👁️

Visión

Vision Core

Captura cualquier región de pantalla. Describe, extrae texto, lee tablas o haz preguntas sobre lo que ves.

🔑

Cuenta

Cuenta y Billetera

🧪

Calidad

1,014 Pruebas

Cobertura de pruebas nivel empresarial desde el primer día. Construye con confianza.

The Plugin Roadmap

Lo Que Viene

V2.1+ es un salto modular. Cada fase es un plugin de conexión en caliente que se lanza de forma independiente.

🔌

Fase 2 · Spec 15En Progreso

Conectores

Envía tu voz directamente a las herramientas que ya usas. Sin copiar y pegar, sin cambiar de contexto.

›Integración con Obsidian — dicta directamente en tu vault, etiquetado y enlazado.
›Soporte para Webhooks, Discord y Streamer.bot para flujos de transmisión en vivo.
›Conexión en caliente: activa o desactiva cada conector sin reiniciar la app.

🎙️

Fase 3 · Spec 15Planeado

Reuniones y Escriba

Un espacio de trabajo dedicado que convierte tus reuniones en artefactos estructurados y buscables.

›Grabación de sesión con un clic y diarización automática de ponentes.
›Resúmenes, acuerdos y puntos de acción generados por IA — local y privado.
›Captura de pantalla durante la reunión; adjunta instantáneas de contexto a la transcripción.

🧠

Fase 4 · Spec 15Planeado

Capa de Memoria

dIKta.me aprende lo que importa. Recuperación semántica entre sesiones sin dependencia de la nube.

›SQLite + búsqueda vectorial: almacena hechos, preferencias y contexto recurrente localmente.
›Hooks del pipeline que aportan memorias relevantes automáticamente antes de cada llamada al LLM.
›Control total del usuario: revisa, edita o borra memorias almacenadas en cualquier momento.

✍️

Fase 5 · Spec 16Planeado

Advanced Refine

Corrección gramatical y de estilo a nivel del sistema, impulsada por tu LLM existente — sin necesidad de herramientas de pago externas.

›Popup de diff en línea activado por atajo con aceptar / rechazar por palabra.
›Monitoreo pasivo del portapapeles — detecta errores en texto que copias en cualquier lugar.
›Funciona en el 100% de apps de Windows (basado en portapapeles, sin hacks de accesibilidad).

🤖

Fase 6 · Spec 17Ideación

Chaviz — Orquestador de Voz

Un agente conversacional tipo Jarvis para dIKta.me. Bilingüe, push-to-talk, llamadas a herramientas. Tu compañero IA consciente del sistema.

›Conversaciones de voz multi-turno push-to-talk con contexto de sesión.
›Llamadas a herramientas nativas: consulta estadísticas, cambia modos, recupera memoria, activa conectores.
›Persona configurable — conciso o detallado, inglés o español.

La hoja de ruta evoluciona. Sigue @diktameapp en X (x.com/diktameapp) o dale estrella al repo para mantenerte actualizado.