碩士論文主題・2026年4月

RAG × 知識圖譜・繁體中文假新聞辨識

結合 Neo4j 知識圖譜、BAAI bge-m3 向量檢索與在地化 Llama-3-Taiwan 8B，建構繁體中文假新聞分類管道。在 Cofacts 資料集 n=853 上準確率與 Macro-F1 均優於基線。為碩士論文主軸，亦發表於 CITDS 2026（匈牙利 Debrecen）。

LangChain
Neo4j
BAAI bge-m3
Llama-3-Taiwan
Python
FastAPI

系統做什麼

這條管道接收一則繁體中文新聞陳述，透過三條訊號合併判斷真偽：

向量檢索：在 Cofacts 事實查核語料庫上，使用 BAAI 的 bge-m3 embedding 找出相關證據。
知識圖譜走訪（Neo4j）：以實體關係層級進行推理——「誰在什麼時間說了什麼，又有哪些證據反駁」。
LLM 判斷：以 Llama-3-Taiwan 8B 為核心，提示詞同時包含檢索到的證據與圖譜路徑。

為什麼要混合

純 RAG 容易漏掉那些「靠實體關係才能判斷」的假訊息（例如「某人在某地與某人會面」這類陳述）。純 KG 又難以泛化到從未見過的新陳述。混合架構在新案件上保有 recall，在實體導向的案件上又能維持 precision。

過程中學到的事

Singhal 1996 的 Pivoted Document-Length Normalization 對於「類別規模不平衡」這種問題，泛化能力出乎意料地好——比我一開始用的 BM25 框架更穩定。
複現性比建模本身更難。我大部分的工程心力其實都花在「讓 JSON 成為唯一真實來源」、並拒絕任何「先 round 再平均」的捷徑算法。
Leite (2025) 的欺騙信號跟 Da San Martino (2020) 的宣傳技術之間需要小心切割，否則容易雙重計算。

進度

碩士論文口試：2026 年 6 月。CITDS 2026 已接受論文（匈牙利 Debrecen，8 月）。