碩士論文主題・2026年4月
RAG × 知識圖譜・繁體中文假新聞辨識
結合 Neo4j 知識圖譜、向量檢索與 Llama-3-Taiwan,建構繁體中文假新聞分類管道。為碩士論文主軸,亦發表於 CITDS 2026。
- LangChain
- Neo4j
- BAAI bge-m3
- Llama-3-Taiwan
- Python
- FastAPI
系統做什麼
這條管道接收一則繁體中文新聞陳述,透過三條訊號合併判斷真偽:
- 向量檢索:在 Cofacts 事實查核語料庫上,使用 BAAI 的
bge-m3embedding 找出相關證據。 - 知識圖譜走訪(Neo4j):以實體關係層級進行推理——「誰在什麼時間說了什麼,又有哪些證據反駁」。
- LLM 判斷:以 Llama-3-Taiwan 8B 為核心,提示詞同時包含檢索到的證據與圖譜路徑。
為什麼要混合
純 RAG 容易漏掉那些「靠實體關係才能判斷」的假訊息(例如「某人在某地與某人會面」這類陳述)。 純 KG 又難以泛化到從未見過的新陳述。混合架構在新案件上保有 recall, 在實體導向的案件上又能維持 precision。
過程中學到的事
- Singhal 1996 的 Pivoted Document-Length Normalization 對於「類別規模不平衡」這種問題, 泛化能力出乎意料地好——比我一開始用的 BM25 框架更穩定。
- 複現性比建模本身更難。我大部分的工程心力其實都花在「讓 JSON 成為唯一真實來源」、 並拒絕任何「先 round 再平均」的捷徑算法。
- Leite (2025) 的欺騙信號跟 Da San Martino (2020) 的宣傳技術之間需要小心切割, 否則容易雙重計算。
進度
碩士論文口試:2026 年 6 月。CITDS 2026 已接受論文(匈牙利 Debrecen,8 月)。