Skip to content
EL VIAJE

Construido para Evolucionar.

De un prototipo en Python + Electron a un motor nativo de Windows — y una hoja de ruta que va mucho más lejos. Esta es la historia completa.

El Salto Arquitectónico

V1 probó el concepto. V2 es el motor real. La misma visión, completamente reconstruida.

Uso de Memoria
~300 MB~60 MB
Tiempo de Inicio
10–12 s< 3 s
Tamaño del Instalador
~200 MB~70 MB
Cobertura de Pruebas
~50 tests1,014 tests
Comparativa técnica: dIKta.me V1 vs V2
MétricaV1 (Prototipo)V2 (Motor Nativo)
ArquitecturaPython + Electron + ZeroMQ (3 procesos)C# + WinUI 3 (proceso único)
Memoria~300 MB~50–80 MB
Inicio10–12 s (calentamiento del modelo)< 3 s (modo cloud)
Instalador~200 MB~70 MB (autocontenido)
Stack de AudioWrappers pyaudio + pycawNAudio + WASAPI nativo
Opciones STTSolo Whisper (local)Whisper + Deepgram streaming + Gemini Audio
Opciones LLMSolo OllamaOllama, Gemini, Anthropic, OpenAI, OpenRouter + más
Texto a VozNingunoKokoroSharp (local) + Deepgram / OpenAI / Gemini (cloud)
Almacenamiento de SecretosElectron safeStorageDPAPI (nivel SO, AES-256)
Suite de Pruebas~50 tests pytest1,014 tests xUnit (nivel empresarial)

Novedades en V2

La reescritura no fue solo un port — entregó un conjunto de funciones completamente nuevo.

💬
Overlay

Chat Rápido

Ventana de chat flotante activada por atajo. Entrada de texto o voz, salida en Markdown.

🔊
Salida de Voz

Texto a Voz

dIKta.me te responde — 5 motores de voz incluyendo Kokoro ONNX completamente local.

🎙️
Productividad

Macros de Voz

Di una frase disparadora y obtén un bloque de texto completo inyectado. Firmas, plantillas, direcciones.

🔇
Audio

Reducción de Audio

Suprime automáticamente el volumen del sistema de otras apps durante la grabación activa.

🧙
Configuración

Asistente de Primer Uso

Configuración guiada de STT / LLM / TTS para que cualquiera esté listo en minutos.

👁️
Visión

Vision Core

Captura cualquier región de pantalla. Describe, extrae texto, lee tablas o haz preguntas sobre lo que ves.

🔑
Cuenta

Cuenta y Billetera

Login OAuth + créditos cloud gestionados. Paga por uso, sin suscripciones.

🧪
Calidad

1,014 Pruebas

Cobertura de pruebas nivel empresarial desde el primer día. Construye con confianza.

Lo Que Viene

V2.1+ es un salto modular. Cada fase es un plugin de conexión en caliente que se lanza de forma independiente.

🔌
Fase 2 · Spec 15En Progreso

Conectores

Envía tu voz directamente a las herramientas que ya usas. Sin copiar y pegar, sin cambiar de contexto.

  • Integración con Obsidian — dicta directamente en tu vault, etiquetado y enlazado.
  • Soporte para Webhooks, Discord y Streamer.bot para flujos de transmisión en vivo.
  • Conexión en caliente: activa o desactiva cada conector sin reiniciar la app.
🎙️
Fase 3 · Spec 15Planeado

Reuniones y Escriba

Un espacio de trabajo dedicado que convierte tus reuniones en artefactos estructurados y buscables.

  • Grabación de sesión con un clic y diarización automática de ponentes.
  • Resúmenes, acuerdos y puntos de acción generados por IA — local y privado.
  • Captura de pantalla durante la reunión; adjunta instantáneas de contexto a la transcripción.
🧠
Fase 4 · Spec 15Planeado

Capa de Memoria

dIKta.me aprende lo que importa. Recuperación semántica entre sesiones sin dependencia de la nube.

  • SQLite + búsqueda vectorial: almacena hechos, preferencias y contexto recurrente localmente.
  • Hooks del pipeline que aportan memorias relevantes automáticamente antes de cada llamada al LLM.
  • Control total del usuario: revisa, edita o borra memorias almacenadas en cualquier momento.
✍️
Fase 5 · Spec 16Planeado

Advanced Refine

Corrección gramatical y de estilo a nivel del sistema, impulsada por tu LLM existente — sin necesidad de herramientas de pago externas.

  • Popup de diff en línea activado por atajo con aceptar / rechazar por palabra.
  • Monitoreo pasivo del portapapeles — detecta errores en texto que copias en cualquier lugar.
  • Funciona en el 100% de apps de Windows (basado en portapapeles, sin hacks de accesibilidad).
🤖
Fase 6 · Spec 17Ideación

Chaviz — Orquestador de Voz

Un agente conversacional tipo Jarvis para dIKta.me. Bilingüe, push-to-talk, llamadas a herramientas. Tu compañero IA consciente del sistema.

  • Conversaciones de voz multi-turno push-to-talk con contexto de sesión.
  • Llamadas a herramientas nativas: consulta estadísticas, cambia modos, recupera memoria, activa conectores.
  • Persona configurable — conciso o detallado, inglés o español.

La hoja de ruta evoluciona. Sigue @diktameapp en X (x.com/diktameapp) o dale estrella al repo para mantenerte actualizado.