碩士論文主題・2026年4月

RAG × 知識圖譜・繁體中文假新聞辨識

結合 Neo4j 知識圖譜、向量檢索與 Llama-3-Taiwan,建構繁體中文假新聞分類管道。為碩士論文主軸,亦發表於 CITDS 2026。

  • LangChain
  • Neo4j
  • BAAI bge-m3
  • Llama-3-Taiwan
  • Python
  • FastAPI

系統做什麼

這條管道接收一則繁體中文新聞陳述,透過三條訊號合併判斷真偽:

  1. 向量檢索:在 Cofacts 事實查核語料庫上,使用 BAAI 的 bge-m3 embedding 找出相關證據。
  2. 知識圖譜走訪(Neo4j):以實體關係層級進行推理——「誰在什麼時間說了什麼,又有哪些證據反駁」。
  3. LLM 判斷:以 Llama-3-Taiwan 8B 為核心,提示詞同時包含檢索到的證據與圖譜路徑。

為什麼要混合

純 RAG 容易漏掉那些「靠實體關係才能判斷」的假訊息(例如「某人在某地與某人會面」這類陳述)。 純 KG 又難以泛化到從未見過的新陳述。混合架構在新案件上保有 recall, 在實體導向的案件上又能維持 precision。

過程中學到的事

  • Singhal 1996 的 Pivoted Document-Length Normalization 對於「類別規模不平衡」這種問題, 泛化能力出乎意料地好——比我一開始用的 BM25 框架更穩定。
  • 複現性比建模本身更難。我大部分的工程心力其實都花在「讓 JSON 成為唯一真實來源」、 並拒絕任何「先 round 再平均」的捷徑算法。
  • Leite (2025) 的欺騙信號跟 Da San Martino (2020) 的宣傳技術之間需要小心切割, 否則容易雙重計算。

進度

碩士論文口試:2026 年 6 月。CITDS 2026 已接受論文(匈牙利 Debrecen,8 月)。