Hello-SimpleAI/chatgpt-comparison-detection

📊 データセットHello-SimpleAI

人間とChatGPTの比較データセットと検出器ベンチマーク

このリポジトリはHC3データセットをホストしており、人間とChatGPTによる37,000以上の質問回答ペアを含みます。対象ドメインは金融、医療、法律、心理学、Reddit (ExplainLikeImFive)、Stack Overflowの6分野です。このデータセットはAIテキスト検出器のトレーニングと評価を可能にし、ロジスティック回帰、BERT、RoBERTa、GPT-2出力検出器などのベースラインモデルが含まれています。本プロジェクトは1,300以上のスターを獲得し、AIテキスト検出研究で広く参照されています。

💡ハイライト

├─37K以上の人間-ChatGPT回答ペア
├─金融・医療・法律など6分野をカバー
└─ロジスティック回帰やBERT等の検出ベースライン

🎯対象

├─NLP研究者
├─AI安全研究者
└─学術機関

🔗リンク

└─GitHub リポジトリ