AI 모델

40개 발견

Poolside: Laguna M.1

Laguna M.1은 Poolside에서 개발한 코딩 특화 AI 모델입니다. 소프트웨어 엔지니어링 작업에 최적화되어 있으며, 에이전트 워크플로우, 도구 호출(Tool Calling) 및 복잡한 추론을 지원합니다. 262,144 토큰의 방대한 컨텍스트 윈도우를 통해 개발자는 대규모 코드베이스를 처리하고 프로젝트의 일관성을 유지할 수 있습니다. Laguna M.1은 현대적인 개발 환경에 원활하게 통합되어 코딩 보조 및 자동화된 소프트웨어 생성을 위한 고성능 텍스트 처리 기능을 제공합니다.

codingagentsoftware-engineeringllm

google-research/timesfm

TimesFM(Time Series Foundation Model)은 Google Research에서 개발한 오픈 소스 프로젝트로, 시계열 예측의 혁신을 목표로 합니다. 파운데이션 모델 아키텍처를 활용하여 학습하지 않은 데이터셋에서도 제로샷 추론이 가능하며, 별도의 재학습 과정을 생략할 수 있습니다. 시계열 데이터를 패치 단위로 처리하여 다양한 주기와 도메인에 걸쳐 일반화가 가능하므로, 맞춤형 모델 구축 없이도 예측 정확도를 높이려는 데이터 과학자와 분석가에게 매우 유용한 도구입니다.

time-seriesforecastingfoundation-modelgoogle-research

Poolside: Laguna XS.2

Laguna XS.2는 Poolside에서 개발한 2세대 소형 코딩 모델입니다. 에이전트 워크플로우를 위해 설계된 이 모델은 가벼운 구조와 고급 추론 및 도구 호출 능력을 결합했습니다. 262k 토큰의 방대한 컨텍스트 윈도우와 경쟁력 있는 가격을 갖추어 복잡한 소프트웨어 개발 작업을 효율적으로 처리합니다. 구조화된 출력과 고급 도구 통합을 지원하여, 대규모 모델의 부담 없이 반응형 코딩 어시스턴트를 구축하려는 개발자에게 강력한 선택지입니다.

codingagentreasoningefficient

pyannote/speaker-diarization

pyannote에서 개발한 이 화자 분할(speaker diarization) 모델은 오디오 스트림을 화자별로 분할하는 선도적인 솔루션입니다. 음성 활동 감지, 화자 변경 감지, 화자 임베딩 추출에 탁월한 성능을 발휘합니다. 연구 및 개발자 커뮤니티에서 널리 사용되며, 회의, 인터뷰, 방송 미디어 등 다중 화자 환경에서 각 화자를 정확히 식별하여 정밀한 분석을 가능하게 합니다.

audiospeechdiarizationvoice

Lykon/dreamshaper-7

DreamShaper 7은 Lykon이 개발한 인기 오픈소스 텍스트-투-이미지 모델입니다. Stable Diffusion 아키텍처를 기반으로 하며, 사실적인 사진부터 애니메이션 스타일까지 다양한 화풍에서 고품질의 결과물을 생성하도록 미세 조정되었습니다. 73만 회 이상의 다운로드를 기록하며, 프롬프트 준수 능력과 예술적 감각을 동시에 갖춘 신뢰할 수 있는 모델로 디지털 아티스트와 AI 창작자들에게 필수적인 도구로 자리 잡았습니다.

stable-diffusiontext-to-imageartanime

ZhengPeng7/BiRefNet

BiRefNet은 ZhengPeng7이 개발한 강력한 오픈소스 이미지 세그멘테이션 모델입니다. 이 모델은 이분법적 이미지 세그멘테이션, 현저성 객체 탐지, 위장 객체 탐지에 탁월한 성능을 발휘합니다. 정교한 아키텍처를 통해 깔끔한 마스크 생성과 효율적인 배경 제거 기능을 제공하며, 고정밀 객체 추출이 필요한 컴퓨터 비전 연구 및 개발 분야에서 최고의 선택지로 평가받습니다.

image-segmentationbackground-removalcomputer-visiondeep-learning

biohub/ESMC-6B

ESMC-6B는 Biohub에서 개발한 생물학적 서열의 마스크 언어 모델링(Masked Language Modeling)을 위한 전문 단백질 언어 모델입니다. 60억 개의 파라미터를 갖춘 이 모델은 단백질 구조와 기능을 이해하는 데 탁월하며, 단백질 공학, 변이 효과 예측, 구조 생물학 연구를 위한 강력한 도구를 제공합니다. 고품질 단백질 임베딩 생성에 널리 활용되어 합성 생물학 및 신약 개발 분야의 혁신을 촉진합니다.

biologyproteinesmtransformers

distil-whisper/distil-large-v3

Distil-Whisper/distil-large-v3는 Distil-Whisper 팀이 개발한 최적화된 자동 음성 인식(ASR) 모델입니다. OpenAI의 Whisper large-v3를 지식 증류(Distillation) 기법으로 압축하여, 원본 모델의 높은 정확도를 유지하면서도 추론 속도를 획기적으로 높이고 메모리 사용량을 줄였습니다. 기존 Whisper 모델을 대체하여 실시간 애플리케이션이나 리소스가 제한된 환경에서 효율적으로 사용할 수 있도록 설계되었습니다.

whisperasrspeech-recognitiondistillation

rinna/japanese-roberta-base

rinna/japanese-roberta-base는 rinna에서 개발한 오픈 소스 언어 모델입니다. RoBERTa 아키텍처를 기반으로 하며, CC100 데이터셋을 포함한 일본어 텍스트 코퍼스로 사전 학습되었습니다. 마스크 언어 모델링(fill-mask) 작업에 최적화되어 있으며, Hugging Face 생태계와 완벽하게 호환되어 다양한 일본어 NLP 애플리케이션의 강력한 기반이 됩니다.

japaneserobertanlpmasked-lm

lmstudio-community/gemma-4-E4B-it-MLX-5bit

lmstudio-community/gemma-4-E4B-it-MLX-5bit는 Google의 Gemma 4 E4B 모델을 MLX 프레임워크에 맞춰 최적화한 양자화 버전입니다. 5비트 양자화를 통해 Apple Silicon 하드웨어에서 효율적인 멀티모달 추론을 지원하며, 높은 성능과 낮은 메모리 사용량 사이의 균형을 제공하여 Mac 환경에서 로컬 AI 작업을 수행하는 개발자에게 최적입니다.

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-6bit

lmstudio-community/gemma-4-E4B-it-MLX-6bit는 Google의 Gemma 4 E4B 모델을 Apple의 MLX 프레임워크에 최적화한 양자화 버전입니다. 이 any-to-any 모델은 Mac 하드웨어에서 효율적인 이미지-텍스트-텍스트 처리를 지원합니다. 6비트 양자화를 통해 메모리 사용량을 대폭 줄이면서도 높은 성능을 유지하여, macOS 기기에서 로컬로 고급 멀티모달 AI 작업을 수행하려는 개발자에게 최적의 선택입니다.

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-8bit

lmstudio-community/gemma-4-E4B-it-MLX-8bit는 Google의 Gemma 4-E4B 지시어 튜닝 모델을 MLX 프레임워크에 최적화한 양자화 버전입니다. LM Studio 커뮤니티가 관리하는 이 모델은 Apple Silicon 하드웨어에서 고성능 멀티모달 추론을 가능하게 합니다. 8비트 양자화를 통해 메모리 사용량을 대폭 줄이면서도 원본 모델의 성능을 유지하여, Mac 기기에서 고급 멀티모달 AI 작업을 로컬로 실행하려는 개발자에게 최적입니다.

gemma4mlxquantizationmultimodal

lmstudio-community/gemma-4-E4B-it-MLX-4bit

lmstudio-community/gemma-4-E4B-it-MLX-4bit는 Google의 Gemma 4 E4B 모델을 MLX 프레임워크를 통해 Apple Silicon 환경에 맞게 최적화한 양자화 버전입니다. 이 멀티모달 모델은 'any-to-any' 작업을 지원하며, macOS 기기에서 메모리 사용량을 줄이면서도 높은 성능을 유지하며 로컬 AI 추론을 실행할 수 있게 합니다. LM Studio 커뮤니티가 유지 관리하며 로컬 AI 워크플로우에 원활하게 통합할 수 있도록 설계되었습니다.

gemma4mlxquantizationmultimodal

Google: Nano Banana Pro (Gemini 3 Pro Image)

Nano Banana Pro는 Google의 Gemini 3 Pro 아키텍처를 기반으로 한 최첨단 멀티모달 모델입니다. 텍스트와 이미지 처리에 탁월하며, 향상된 이미지 생성 및 편집 기능을 제공합니다. 65k 컨텍스트 윈도우와 구조화된 출력 지원을 통해 복잡한 멀티모달 워크플로우를 구현하려는 개발자에게 최적화된 고성능 도구입니다.

multimodalgeminigoogleimage-generation

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Gemini 3.1 Flash Image(코드명 'Nano Banana 2')는 고성능 이미지 생성 및 텍스트 처리를 위해 설계된 Google의 최신 멀티모달 모델입니다. 속도와 품질의 균형을 갖추어 개발자가 정교한 시각적 및 텍스트 기능을 애플리케이션에 통합할 수 있게 합니다. 131k 토큰의 방대한 컨텍스트 윈도우와 경제적인 가격을 제공하며, Flash 시리즈 특유의 효율성을 유지하면서도 시각적 충실도의 한계를 넓힌 다재다능한 엔진입니다.

multimodalimage-generationgooglegemini

rifkybujana/IndoBERT-QA

IndoBERT-QA는 rifkybujana가 개발한 오픈 소스 프로젝트로, IndoBERT Base-Uncased 모델을 인도네시아어 질의응답(QA) 작업에 최적화하여 미세 조정했습니다. 번역된 SQuAD v2.0 데이터셋을 활용하여 개발자와 연구자들이 인도네시아어 텍스트에 대해 문맥을 이해하는 고품질 질의응답 기능을 구현할 수 있도록 지원하며, 저자원 언어 NLP 분야의 격차를 해소합니다.

indobertindonesiannlpquestion-answering

michaelhla/pro-1

pro-1은 michaelhla가 개발한 AI 모델로, GRPO(Group Relative Policy Optimization)를 활용하여 단백질 안정성 예측 성능을 향상시킵니다. Rosetta REF2015 에너지 함수와 연동하여 계산 생물학을 위한 특화된 추론 엔진 역할을 수행합니다. 이 모델은 대규모 언어 모델과 구조 생물학 사이의 간극을 메우며, 강화 학습 기법을 통해 단백질 설계 및 안정성 연구를 수행할 수 있는 프레임워크를 제공합니다.

biologyllmsreinforcement-learningprotein-design

zs1314/OCTAMamba

OCTAMamba는 OCTA(광간섭단층혈관조영술) 영상의 정밀한 분할을 위해 설계된 혁신적인 딥러닝 프레임워크입니다. ICASSP 2025 구두 발표 논문으로, Mamba 상태 공간 모델 아키텍처를 활용하여 의료 영상 분석에서 탁월한 성능을 발휘합니다. 상태 공간 모델의 효율성과 특수 의료 영상 기법을 결합하여, 임상의와 연구자가 망막 스캔에서 복잡한 혈관 구조를 정확하게 매핑할 수 있도록 돕는 경량화된 고성능 솔루션을 제공합니다.

mambamedical-imagingsegmentationdeep-learning

WeiboAI/VibeThinker

VibeThinker-1.5B는 WeiboAI에서 개발한 소형 추론 언어 모델입니다. 다양성 기반 최적화 기법을 통해 훨씬 큰 모델에서만 볼 수 있던 복잡한 추론 능력을 성공적으로 구현했습니다. 이 프로젝트는 소형 언어 모델(SLLM)도 높은 논리적 성능을 발휘할 수 있음을 입증하며, 하드웨어 제약이 있는 환경에서도 고성능 추론을 가능하게 합니다.

llmreasoningsllmoptimization

replit/ReplitLM

ReplitLM은 Replit에서 개발한 대규모 언어 모델 제품군으로, 코드 생성 및 소프트웨어 엔지니어링 작업에 특화되어 있습니다. 이 저장소는 해당 모델을 배포하기 위한 추론 코드, 구성 파일 및 구현 세부 정보를 제공합니다. 코드 중심의 학습을 통해 개발자에게 효율적이고 문맥을 이해하는 코딩 보조 도구를 제공하며, 상용구 코드 자동화, 코드 완성 제안 및 복잡한 코드베이스 디버깅을 지원합니다.

aiai4codellmcoding-assistant

AIRMEC/im4MEC

im4MEC은 AIRMEC이 개발한 해석 가능한 딥러닝 프레임워크로, H&E 염색된 전체 슬라이드 이미지를 사용하여 자궁내막암의 분자 아형을 분류합니다. 어텐션 메커니즘을 활용하여 조직 병리학적 특징에 대한 임상적 통찰력을 제공하며, 자동화된 진단 및 연구를 지원합니다. PyTorch 기반으로 구축된 이 프로젝트는 PORTEC 임상 시험 및 다양한 코호트를 통해 검증되었으며, 계산 병리학 및 정밀 종양학을 위한 강력한 도구를 제공합니다.

pathologyhistologypytorchoncology

chychen/BasketballGAN

BasketballGAN은 chychen이 개발한 전문 딥러닝 모델로, 특정 농구 전술에 대한 상대 팀의 반응을 시뮬레이션합니다. GAN을 활용하여 코치가 화이트보드에 그린 작전 스케치를 실제와 유사한 수비 움직임 예측으로 변환합니다. 이 도구는 코치들을 위한 디지털 보조 기구로서, 경기장에 나서기 전 전술의 효과를 테스트하고 수비 변화를 미리 예측할 수 있게 해주며, 전통적인 코칭 방식과 현대적인 스포츠 데이터 분석을 연결합니다.

basketballgansports-analyticsdeep-learning

mcbuehler/VariTex

VariTex는 mcbuehler가 ICCV 2021에서 발표한 변이형 신경망 얼굴 텍스처(Variational Neural Face Textures) 생성 모델입니다. 딥러닝과 신경망 렌더링 기술을 활용하여 사실적인 얼굴 텍스처를 합성합니다. 변이형 프레임워크를 통해 얼굴 외형을 정교하게 제어할 수 있어 컴퓨터 비전 및 디지털 휴먼 합성 분야에서 중요한 기여를 한 연구입니다.

computer-visiondeep-learningganneural-rendering

MeetKai/functionary

MeetKai에서 개발한 Functionary는 함수 호출 및 도구 해석에 특화된 채팅 언어 모델입니다. 일반적인 LLM과 달리 복잡한 도구 정의를 이해하고, 정확하게 함수를 호출하며, 결과를 처리하여 일관된 응답을 제공하도록 미세 조정되었습니다. 자연어 지시사항과 프로그래밍 실행 사이의 가교 역할을 하며, 외부 API 및 데이터 소스와 상호작용하는 자율형 AI 에이전트 개발에 필수적인 도구입니다.

agentsfunction-callingllmpython

Cohere: North Mini Code (free)

North Mini Code는 에이전트 기반 코딩 워크플로우를 위해 설계된 Cohere의 첫 번째 'North' 모델입니다. 30B 파라미터 중 토큰당 3B만 활성화하는 희소 혼합 전문가(MoE) 구조로 효율성을 극대화했습니다. 256,000 토큰의 방대한 컨텍스트 윈도우를 지원하여 대규모 코드베이스와 복잡한 문서를 원활하게 처리할 수 있습니다. OpenRouter를 통해 무료로 제공되며, 고성능 코딩 어시스턴트 분야의 새로운 기준을 제시합니다.

codingmoeagenticcohere

kyegomez/ScreenAI

ScreenAI는 사용자 인터페이스(UI)와 인포그래픽 등 복잡한 시각적 레이아웃을 해석하기 위해 설계된 특수 시각-언어 모델(VLM)입니다. Kye Gomez가 개발한 이 저장소는 Google 연구 논문에 기술된 아키텍처를 PyTorch로 깔끔하게 구현했습니다. 개발자들은 이를 통해 AI 에이전트에 고급 화면 분석 기능을 통합하여, 디지털 인터페이스, 차트, 다이어그램을 정밀하게 인식하고 추론할 수 있게 합니다.

vision-language-modelui-understandingpytorchcomputer-vision

SkyWorkAIGC/SkyText-Chinese-GPT3

SkyText는 奇点智源(Singularity-AI)에서 개발한 중국어 특화 GPT-3 사전 학습 대규모 언어 모델입니다. 텍스트 이어쓰기, 대화형 질의응답, 중영 번역, 창의적 콘텐츠 생성 및 논리적 추론 등 다양한 자연어 처리 작업을 수행하도록 설계되었습니다. 중국어 AI 생태계의 초기 기반 모델로서, 고품질의 중국어 텍스트 생성과 이해가 필요한 애플리케이션을 개발하는 이들에게 다재다능한 프레임워크를 제공합니다.

chinese-nlpgpt3llmtext-generation

OlafenwaMoses/DeepStack_ExDark

DeepStack_ExDark는 OlafenwaMoses가 개발한 컴퓨터 비전 모델로, 어두운 환경에서의 객체 탐지 성능을 극대화합니다. DeepStack AI 서버와 통합되어 야간 보안 영상 분석에 최적화되어 있으며, 일반적인 모델이 식별하기 어려운 저조도 환경에서도 안정적인 감시 기능을 제공합니다.

computer-visionnight-visionobject-detectiondeepstack

Bria-AI/FIBO

Bria-AI가 개발한 FIBO는 JSON 네이티브 아키텍처를 도입한 최첨단 오픈소스 텍스트-이미지 모델입니다. 예측 가능성과 법적 안전성을 최우선으로 하여 개발자가 고도로 제어 가능한 이미지 생성을 구현할 수 있게 합니다. 기업 환경을 위해 설계된 FIBO는 창의적인 AI 기능과 전문 워크플로우의 엄격한 요구 사항 사이의 간극을 메우며, 생성된 콘텐츠가 고품질이면서 윤리적으로 확보되었음을 보장합니다.

text-to-imageenterprise-aigenerative-aiethical-ai

microsoft/Phi-tiny-MoE-instruct

Phi-tiny-MoE-instruct는 마이크로소프트에서 개발한 소형 전문가 혼합(MoE) 언어 모델입니다. 효율성과 속도에 최적화된 이 모델은 희소 활성화(sparse activation) 방식을 사용하여 적은 리소스로도 고품질의 대화형 응답을 제공합니다. 추론 시 파라미터의 일부만 활성화하므로, 지연 시간이 중요한 엣지 컴퓨팅 및 리소스가 제한된 환경에서 밀집 모델의 강력한 대안으로 활용될 수 있습니다.

moemicrosoftedge-aitransformers

unsloth/Qwen3.5-4B-GGUF

unsloth/Qwen3.5-4B-GGUF는 Unsloth에서 개발한 Qwen3.5-4B 비전-언어 모델의 고도로 최적화된 양자화 버전입니다. GGUF 형식을 사용하여 소비자용 하드웨어에서도 뛰어난 이미지-텍스트 처리 성능을 제공하며, 메모리 사용량을 대폭 줄여 로컬 환경 및 엣지 컴퓨팅에서 복잡한 멀티모달 AI 작업을 수행할 수 있도록 지원합니다.

multimodalquantizationggufvision-language

nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4는 NVIDIA에서 개발한 특화된 텍스트 생성 모델입니다. 고품질 대화형 작업을 위해 설계된 이 모델은 고급 아키텍처를 활용하여 자연어 처리 분야에서 강력한 성능을 제공합니다. Nemotron 제품군의 일환으로 파라미터 규모와 효율적인 추론 사이의 균형을 맞추었으며, 정교한 대화형 AI를 애플리케이션에 통합하려는 개발자에게 다재다능한 선택지를 제공합니다. PyTorch와 같은 다양한 프레임워크를 지원하며, 안전하고 최적화된 가중치 로딩을 위해 safetensors를 사용합니다.

nvidiaconversationaltransformerstext-generation

circlestone-labs/Anima

circlestone-labs에서 개발한 Anima는 NVIDIA의 Cosmos-Predict2-2B-Text2Image 아키텍처를 기반으로 파인튜닝된 오픈소스 확산 모델입니다. ComfyUI와의 원활한 통합을 위해 설계되었으며, 고급 예측 확산 기술을 활용해 고충실도 시각 콘텐츠를 생성합니다. 60만 회 이상의 다운로드를 기록하며 확산 모델 생태계에서 효율적이고 강력한 이미지 합성 도구로 자리 잡았습니다.

diffusioncomfyuitext-to-imageopen-source

Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507은 Qwen이 개발한 고급 오픈소스 Mixture-of-Experts(MoE) 모델입니다. 고효율 텍스트 생성을 위해 설계되었으며, 정교한 아키텍처를 통해 강력한 대화 능력을 제공합니다. 60만 회 이상의 다운로드를 기록하며 모델의 깊이와 연산 효율성 사이의 균형을 찾는 개발자들에게 필수적인 선택지가 되었습니다. Hugging Face 생태계와 완벽하게 호환되며, 안전하고 빠른 로딩을 위해 safetensors 형식을 지원하여 연구 및 프로덕션 AI 애플리케이션에 매우 적합합니다.

llmmoeqwenconversational

hmellor/tiny-random-BambaForCausalLM

hmellor/tiny-random-BambaForCausalLM은 Bamba 인과 언어 모델의 구조를 가진 초소형 랜덤 초기화 버전입니다. hmellor가 제작하고 Hugging Face에 호스팅된 이 모델은 Bamba 아키텍처를 다루는 개발자를 위한 경량 테스트 도구입니다. 거대한 사전 학습 가중치를 로드할 필요 없이 파이프라인 호환성, 통합 로직 및 배포 스크립트를 검증하는 데 최적화되어 있습니다.

bambatestingtransformerssafetensors

Qwen/Qwen3-TTS-12Hz-0.6B-Base

Qwen3-TTS-12Hz-0.6B-Base는 Qwen 팀이 개발한 오픈소스 텍스트 음성 변환 모델입니다. 효율성과 고품질 오디오 생성을 위해 설계된 이 0.6B 파라미터 모델은 한국어, 중국어, 영어, 일본어를 지원합니다. 고급 토큰화 및 합성 기술을 활용하여 자연스러운 음성을 제공하며, 경량화된 고충실도 음성 기능을 애플리케이션에 통합하려는 개발자에게 다재다능한 선택지를 제공합니다.

ttsaudiovoice-clonemultilingual

Babelscape/wikineural-multilingual-ner

Babelscape/wikineural-multilingual-ner는 Babelscape에서 개발한 강력한 토큰 분류 모델로, 개체명 인식(NER)에 최적화되어 있습니다. BERT 아키텍처를 기반으로 인물, 장소, 조직 등 다양한 개체를 9개 언어에서 정확하게 식별합니다. 언어별 모델을 따로 학습시킬 필요 없이 다국어 텍스트에서 구조화된 정보를 추출해야 하는 개발자들에게 필수적인 솔루션입니다.

nlpnermultilingualbert

unsloth/Qwen3-4B

Unsloth/Qwen3-4B는 Qwen3-4B 아키텍처를 기반으로 한 고효율 오픈소스 언어 모델입니다. Unsloth 팀이 개발한 이 모델은 특화된 학습 기법을 통해 메모리 사용량을 줄이고 추론 속도를 극대화했습니다. 리소스가 제한된 환경이나 엣지 디바이스에서 최첨단 언어 모델을 활용하고자 하는 개발자들에게 최적의 경량화 솔루션을 제공합니다.

qwen3unslothllmoptimization

state-spaces/mamba-130m-hf

Mamba-130m-hf는 state-spaces 연구팀이 개발한 경량 상태 공간 모델(SSM)입니다. 기존 트랜스포머 아키텍처에서 벗어나 선택적 상태 공간 모델을 활용하여 시퀀스 길이에 따른 선형적 확장을 구현했습니다. 1억 3천만 파라미터 버전의 이 모델은 텍스트 생성 작업에 최적화되어 있으며, 허깅페이스 생태계와 완벽하게 호환되어 기존 어텐션 기반 아키텍처의 효율적인 대안을 찾는 개발자들에게 적합합니다.

mambassmtransformersnlp

Harveenchadha/vakyansh-wav2vec2-sanskrit-sam-60

Harveenchadha/vakyansh-wav2vec2-sanskrit-sam-60은 Wav2Vec2 아키텍처를 기반으로 구축된 오픈 소스 자동 음성 인식(ASR) 모델입니다. Harveenchadha가 개발한 이 모델은 산스크리트어 오디오 데이터를 처리하고 전사하도록 특별히 미세 조정되었습니다. PyTorch 프레임워크를 활용하며 Hugging Face Transformers와 완벽하게 호환되어, 고전 언어의 음성-텍스트 변환 및 언어 보존 연구에 필수적인 자원입니다.

sanskritasrwav2vec2speech-recognition