VikParuchuri/textbook_quality

📦 오픈 소스 프로젝트VikParuchuri

LLM 사전 학습 성능 향상을 위한 교과서 수준의 고품질 합성 데이터 생성 프레임워크.

textbook_quality 저장소는 거대 언어 모델(LLM) 사전 학습을 위한 교육용 합성 데이터 생성 파이프라인을 제공합니다. AI 업계가 데이터의 양에서 질로 초점을 옮김에 따라, 이 도구는 깨끗하고 구조화된 정보성 데이터셋에 대한 핵심적인 요구를 해결합니다. 이 프레임워크는 LLM을 활용하여 교육적 기준을 준수하는 콘텐츠를 생성하거나 재작성하며, 일반적인 웹 크롤링 데이터의 노이즈를 제거하고 정보 밀도를 높입니다. 주요 기능으로는 자동화된 콘텐츠 생성 워크플로우, 데이터 품질 필터링 메커니즘, 그리고 연구자가 합성 데이터 생산을 확장할 수 있도록 돕는 모듈식 파이썬 스크립트가 포함됩니다. '교과서 품질'을 우선시함으로써 모델의 환각 현상을 줄이고 추론 능력을 향상시키는 것을 목표로 하며, 처음부터 모델을 학습시키거나 특정 도메인에서 추가 학습을 수행하는 연구자들에게 필수적인 자원입니다.

💡하이라이트

├─교과서 수준의 합성 데이터 생성
├─LLM 사전 학습에 최적화
└─자동화된 데이터 품질 파이프라인

🎯대상

├─AI 연구원
├─데이터 과학자
└─LLM 엔지니어

🔗링크

└─GitHub 저장소