Whitepaper merupakan sumber informasi utama bagi calon investor untuk memahami isi dan arah pengembangan proyek cryptocurrency. Namun, kualitas whitepaper sangat beragam, mulai dari yang informatif hingga yang terlalu umum, mengandung plagiarisme, atau memiliki kualitas bahasa yang rendah. Penelitian ini bertujuan mengembangkan sistem yang dapat membantu menilai isi whitepaper secara lebih objektif sebagai bahan pertimbangan awal bagi investor.
Sistem dibangun sebagai pipeline NLP berbasis Python yang mencakup ekstraksi PDF, segmentasi section, pre-processing teks, ekstraksi keyword, klasifikasi section dengan RoBERTa, deteksi kualitas linguistik, deteksi kemiripan antarwhitepaper, dan scoring kredibilitas. Data penelitian terdiri atas 45 whitepaper berbahasa Inggris yang dianotasi manual, dengan tambahan 6 whitepaper pada data latih untuk memperkaya label minoritas.
Hasil penelitian menunjukkan bahwa model klasifikasi section terbaik, yaitu roberta-finetuned-v6-aug, mencapai accuracy 72,61%, macro F1-score 71,67%, dan weighted F1-score 72,85% pada data uji. Dalam penilaian kredibilitas, sinyal yang paling berpengaruh adalah content balance, diikuti plagiarism, profile-aware coverage, dan linguistic quality. Sistem akhirnya menghasilkan credibility score, label kualitas, red flags, dan ringkasan dokumen yang dapat membantu calon investor membaca whitepaper secara lebih cepat dan terarah.