MhageGH/esp32_CloudSpeech

📦 오픈 소스 프로젝트MhageGH

Google Cloud Speech-to-Text API를 활용하여 ESP32 하드웨어에서 실시간 음성 전사를 구현하세요.

esp32_CloudSpeech 저장소는 ESP32 프로젝트에 음성-텍스트 변환 기능을 통합하려는 개발자를 위한 강력한 프레임워크를 제공합니다. 이 프로젝트는 마이크에서 원시 오디오 데이터를 캡처하고 버퍼링한 뒤, HTTPS를 통해 Google Cloud Speech-to-Text API로 스트리밍하는 복잡한 작업을 처리합니다. M5Stack Fire와 같은 하드웨어에 대한 특정 구성을 포함하고 있어, 리소스가 제한된 기기에서 I2S 오디오 입력 및 보안 네트워크 요청을 관리하는 방법을 보여줍니다. 주요 기술적 특징: - 고품질 오디오 캡처를 위한 I2S 마이크 통합 - Google Cloud 서비스와의 보안 HTTPS 통신 - ESP32의 제한된 RAM에서 오디오 스트리밍을 처리하기 위한 효율적인 메모리 관리 - 다양한 ESP32 개발 보드에 맞게 조정 가능한 모듈형 C++ 코드 구조 이 프로젝트는 무거운 로컬 추론 모델을 실행하지 않고도 높은 정확도의 전사가 필요한 스마트 홈 인터페이스, 음성 인식 로봇, 자동화된 로깅 시스템을 만들고자 하는 취미 개발자와 엔지니어에게 필수적입니다.

💡하이라이트

├─Google Cloud Speech-to-Text API 연동
├─I2S 마이크 오디오 스트리밍 지원
└─ESP32 및 M5Stack 최적화

🎯대상

├─IoT 개발자
└─임베디드 시스템 엔지니어

🔗링크

└─GitHub 저장소