Data Navigator

음성인식 모델 Whisper 에 대한 개념과 기본 사용법 본문

Python

음성인식 모델 Whisper 에 대한 개념과 기본 사용법

코딩하고분석하는돌스 2024. 11. 13. 09:38

음성인식 모델 Whisper 에 대한 개념과 기본 사용법

 

 

OpenAI의 Whisper는 음성 인식을 통한 음성-텍스트 변환을 지원하는 모델로, OpenAI API를 통해 간편하게 사용할 수 있다. 이 시스템은 음성 데이터를 텍스트로 변환하는 데 특화되어 있으며, 다양한 언어와 억양을 정확하게 인식하는 기능을 갖추고 있다.

 

1. Whisper의 기능

  1. 음성-텍스트 변환: Whisper는 음성을 텍스트로 변환하는 기능을 제공한다. 이를 통해 녹음된 오디오를 텍스트로 쉽게 기록할 수 있다.
  2. 다국어 인식: Whisper는 여러 언어의 음성을 인식하고 텍스트로 변환할 수 있어, 다국어 환경에서도 유용하게 사용된다.
  3. 언어 감지 및 번역: Whisper는 음성 파일 내에서 자동으로 언어를 감지하고, 지정된 경우 영어로 번역된 텍스트를 제공할 수 있다.

 

2. Whisper 사용 예시

OpenAI API를 통해 Whisper를 사용하여 음성-텍스트 변환을 수행하는 기본적인 Python 코드 예시는 다음과 같다.

1) 음성 파일을 텍스트로 변환하기

import openai
import os

openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("your_audio_file.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

print(transcript['text'])

 

위 코드에서:

  • openai.Audio.transcribe 메서드를 사용하여 whisper-1 모델을 통해 음성 파일을 텍스트로 변환한다.
  • audio_file에는 변환하고자 하는 음성 파일(mp3, wav 등)을 넣으면 된다.
  • 변환된 텍스트는 transcript['text']에서 확인할 수 있다.

2) 음성을 영어로 번역하기

Whisper는 음성 파일의 내용을 영어로 번역하는 기능도 제공한다.

import openai
import os

openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("your_audio_file.mp3", "rb")
translated_text = openai.Audio.translate("whisper-1", audio_file)

print(translated_text['text'])

 

여기서 openai.Audio.translate 메서드는 음성 파일의 내용을 영어로 번역하여 반환한다.

이 기능은 다국어 음성을 자동으로 인식한 후, 영어 텍스트로 변환해야 할 때 유용하다.

 

3. Whisper의 주요 파라미터

Whisper 모델에서 사용할 수 있는 주요 파라미터는 다음과 같다:

  • temperature: 모델이 텍스트를 생성할 때의 다양성을 조절하는 파라미터로, 값이 높을수록 더 다양한 결과가 나올 수 있다.
  • language: 음성 파일의 언어를 명시할 수 있다. 언어를 지정하면 더 빠르고 정확한 결과를 얻을 수 있다.
  • response_format: API 응답 형식을 지정할 수 있다. 기본적으로는 텍스트 형식으로 반환되지만, JSON 형식으로도 받을 수 있다.

 

4. Whisper의 사용 사례

  • 회의 기록: 회의 내용을 녹음하고, Whisper를 통해 텍스트로 변환하여 회의록을 자동으로 작성할 수 있다.
  • 자막 생성: 비디오나 오디오 콘텐츠에서 음성을 텍스트로 변환하여 자막을 생성할 수 있다.
  • 언어 감지 및 번역: 여러 언어의 음성을 감지하고 영어로 번역하여, 국제적 콘텐츠 제작에 활용할 수 있다.
  • 음성 명령 인식: 음성 명령을 텍스트로 변환하여 다양한 애플리케이션과 통합할 수 있다.

 

5. Whisper 모델의 장점과 한계

1) 장점:

  • Whisper는 여러 언어와 억양을 이해하는 데 강력하며, 높은 정확도로 음성을 텍스트로 변환한다.
  • OpenAI API를 통해 간편하게 접근할 수 있으며, 다양한 언어와의 호환성을 제공하여 다국어 환경에서 유용하게 사용된다.

2) 한계:

  • Whisper 모델은 실시간 처리를 위한 모델이 아니므로, 응답 속도가 중요한 실시간 응용에는 적합하지 않을 수 있다.
  • 큰 오디오 파일을 처리할 때 처리 시간이 길어질 수 있다.

Whisper는 음성 인식과 텍스트 변환이 필요한 다양한 상황에서 활용할 수 있으며, 특히 정확한 다국어 지원이 필요한 프로젝트에 적합한 솔루션을 제공한다. OpenAI의 Whisper API를 통해 손쉽게 사용할 수 있어, 개발자가 음성 데이터를 텍스트로 변환하고 분석하는 데 매우 유용한 도구이다.

 

6. whisper api 이용 요금

Whisper API 호출 횟수가 아닌, 변환하려는 오디오의 분 단위 길이로 계산된다.

요금은 오디오 입력 1분당 $0.006이다.

이는 음성을 텍스트로 변환하는 데 드는 비용으로, Whisper 모델의 모든 기능(다국어 인식 및 번역 포함)에 적용된다.

요금 예시

  • 10분 오디오 파일 변환: 10분 × $0.006 = $0.06
  • 1시간 오디오 파일 변환: 60분 × $0.006 = $0.36
  • 10시간 오디오 파일 변환: 600분 × $0.006 = $3.60