主題模型

主題模型（Topic Model）在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講，如果一篇文章有一個中心思想，那麼一些特定詞語會更頻繁的出現。比方說，如果一篇文章是在講狗的，那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的，那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。但真實的情況是，一篇文章通常包含多種主題，而且每個主題所占比例各不相同。因此，如果一篇文章10%和貓有關，90%和狗有關，那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的9倍。一個主題模型試圖用數學框架來體現文檔的這種特點。主題模型自動分析每個文檔，統計文檔內的詞語，根據統計的信息來斷定當前文檔含有哪些主題，以及每個主題所占的比例各為多少。

主題模型最初是運用於自然語言處理相關方向，但目前以及延伸至例如生物信息學的其它領域。

歷史

Papadimitriou、Raghavan、Tamaki和Vempala在1998年發表的一篇論文中提出了潛在語義索引^[1]。1999年，Thomas Hofmann又在此基礎上，提出了概率性潛在語義索引（Probabilistic Latent Semantic Indexing，簡稱PLSI）^[2]。

隱含狄利克雷分配可能是最常見的主題模型，是一般化的PLSI，由Blei, David M.、吳恩達和Jordan, Michael I於2003年提出^[3]。LDA允許文檔擁有多種主題。它用於按主題收集、分類和降低文本的維度。 LDA 是一種主題模型方法，可用於分析文檔的主題分佈。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示。其它主題模型一般是在LDA基礎上改進的^[4]。例如Pachinko分布在LDA度量詞語關聯之上，還加入了主題的關聯度。

參見

範例理論

參考

^ Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. Latent Semantic Indexing: A probabilistic analysis. Proceedings of ACM PODS. 1998 [2013-08-18]. （原始內容 (Postscript)存檔於2013-05-09）.
^ Hofmann, Thomas. Probabilistic Latent Semantic Indexing (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999 [2013-08-18]. （原始內容 (PDF)存檔於2010-12-14）.
^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3: 993–1022 [2013-08-18]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.
^ Zeng, L.; Li, R.Y.M.; Yigitcanlar, T.; Zeng, H. Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach. Buildings 2023, 13, 927. https://doi.org/10.3390/buildings13040927

[PRTV1998-1] Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. Latent Semantic Indexing: A probabilistic analysis. Proceedings of ACM PODS. 1998 [2013-08-18]. （原始內容 (Postscript)存檔於2013-05-09）.

[hofmann1999-2] Hofmann, Thomas. Probabilistic Latent Semantic Indexing (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999 [2013-08-18]. （原始內容 (PDF)存檔於2010-12-14）.

[blei2003-3] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3: 993–1022 [2013-08-18]. doi:10.1162/jmlr.2003.3.4-5.993. （原始內容存檔於2012-05-01）.

[4] Zeng, L.; Li, R.Y.M.; Yigitcanlar, T.; Zeng, H. Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach. Buildings 2023, 13, 927. https://doi.org/10.3390/buildings13040927

[1]

[2]

[3]

[4]

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機器人文字冒險遊戲問答系統