공데셍의 전공 지식 저장소

컴퓨터 과학

VTT(Voice To Text) 프로그램 Python으로 만든 영상

Ball Dessin 2023. 6. 16. 13:04
반응형

 

코드는 현재 공개하지 않습니다.

다만 다양한 사이트를 참고하였는데

https://pythonprogramminglanguage.com/pyqt5-video-widget/

https://towardsdatascience.com/speech-recognition-with-timestamps-934ede4234b2

이 두 곳에서 도움을 많이 받았습니다.

 

 

참고로 PyQt5 등을 이용하여 동영상 재생 시

컴퓨터에 코덱(CODEC)이 설치되어있어야 합니다.

https://www.codecguide.com/download_kl.htm

이 사이트에서 Basic을 다운로드한 후

기본값으로 다 ok하고 설치하면 됩니다.

 

 

설치 후 윈도우에서 찾기해보면 Codec Tweak Tool 이라는 프로그램이 생성되는데,

그 프로그램의 폴더 위치를 열어서 상위 폴더인 K-Lite Codec Pack를 확인할 수 있습니다.

이 폴더의 위치는 그냥 파이썬 프로젝트 폴더 내로 잘라넣기 해도 잘 작동합니다.

(컴퓨터 내에 존재하기만 하면 잘 되는 듯 합니다.)

 

 

아래는 실행 영상입니다. 한 번 변환하여 파일명.json 이랑 파일명.txt 가 있는 경우엔

청크 합성만 하여 11분짜리 영상도 3초 내에 실행할 수 있도록 개선했습니다.

(원래는 동영상 길이의 1.5배 정도 걸립니다.)

다음 개선점은 소리 조절, 멀티스래딩을 통한 변환중에 화면이 응답불가상태가 안되도록 하는 것입니다.

 

 

참고로 빌드해보면 가상환경에서는 돌아가지만 exe로 빌드 시

vosk가 없다며 실행이 되지 않는 오류가 있는데

https://github.com/alphacep/vosk-api/issues/602

이 링크의 답변을 통해 해결할 수 있습니다.

 

 

반응형