NLP

1 Post

[NLP]實作:如何抽取繁體中文文章關鍵字

前言 今天來介紹一個關鍵字抽取方法KeyBERT,雖然目前已經有許多抽取關鍵字的方法,像是TF-IDF、Rake、TextRank和TAKE……等等,KeyBERT的作者希望能夠創造更為簡單易用且輕量的方法,它使用BERT embedding和cosince similarity去尋找文章中最為重要的字詞,它的概念非常簡單,就是將整篇文章與每個字詞一一的計算相似度,與整篇文章相似度愈高的字詞代表是越重要的關鍵字。 以下會介紹如何使用KeyBERT來抽取繁體中文文章中的關鍵字,分為三個部分進行介紹。所有程式碼都在Colab中,大家可以跟著一起實作。 * 第一部分為中文斷詞方法介紹,中文在抽取關鍵字前需要先進行斷詞,中文不像英文可以直接以空白作為分隔形成單字,像是"我喜歡你"斷完詞後會是"我"、"喜歡"、"你"。 * 第二部分為透過KeyBERT模組來進行關鍵字抽取。 * 第三部分介紹embedding模型抽換的方法,除了使用預設的embedding模型,還可以從Hugging Face網站上挑選喜歡的預訓練語言模型來抽換。 中文斷詞 這裡使用CKIP Tagger來