Faster-Whisper

Legendas automáticas

Transcrição precisa em português com timestamps palavra por palavra. Legendas sincronizadas geradas automaticamente em cada clipe.

Faster-Whisper

Utilizamos o modelo Faster-Whisper base para transcrição em português. Processamento com CTranslate2 em CPU para resultados rápidos e precisos.

Timestamp word-level

Cada palavra é sincronizada individualmente ao frame do vídeo. As legendas aparecem e desaparecem em sincronia com a fala, sem atrasos.

Formatação inteligente

O texto é dividido automaticamente em blocos legíveis respeitando a pontuação e respiração natural. Legendas longas são quebradas em múltiplas linhas no timing ideal.

Exportação SRT

Arquivos SRT gerados com timestamps precisos, compatíveis com qualquer player de vídeo e plataforma de redes sociais.

Legendas embutidas

As legendas são queimadas diretamente no vídeo durante a geração do clipe. Pronto para publicar sem arquivos extras.

Como funciona

A transcrição é parte do pipeline principal de clipagem.

Extração do áudio

O áudio é extraído do vídeo e convertido para o formato WAV mono de 16kHz.

Transcrição com Whisper

O modelo Faster-Whisper processa o áudio em português e gera a transcrição com timestamps por palavra.

Grupos de legenda

As palavras são agrupadas em blocos de até 42 caracteres por linha, respeitando pontuação e pausas naturais.

Geração de SRT

Arquivo SRT é gerado com os timestamps. As legendas também são queimadas diretamente no vídeo do clipe via ffmpeg.

Formatos de exportação

As legendas são geradas em dois formatos, dependendo da sua necessidade.

SRT

Arquivo de legenda separado com timestamps. Compatível com YouTube, Instagram, TikTok e editores de vídeo.

Embutidas (hardcoded)

Legendas queimadas diretamente no vídeo. Pronto para publicar sem arquivo extra.

Atualmente o Sleepcomet suporta transcrição em português. A detecção de idioma é configurada para português brasileiro.