[NLP]實作:如何抽取繁體中文文章關鍵字
前言
今天來介紹一個關鍵字抽取方法KeyBERT,雖然目前已經有許多抽取關鍵字的方法,像是TF-IDF、Rake、TextRank和TAKE……等等,KeyBERT的作者希望能夠創造更為簡單易用且輕量的方法,它使用BERT embedding和cosince similarity去尋找文章中最為重要的字詞,它的概念非常簡單,就是將整篇文章與每個字詞一一的計算相似度,與整篇文章相似度愈高的字詞代表是越重要的關鍵字。
以下會介紹如何使用KeyBERT來抽取繁體中文文章中的關鍵字,分為三個部分進行介紹。所有程式碼都在Colab中,大家可以跟著一起實作。
- 第一部分為中文斷詞方法介紹,中文在抽取關鍵字前需要先進行斷詞,中文不像英文可以直接以空白作為分隔形成單字,像是"我喜歡你"斷完詞後會是"我"、"喜歡"、"你"。
- 第二部分為透過KeyBERT模組來進行關鍵字抽取。
- 第三部分介紹embedding模型抽換的方法,除了使用預設的embedding模型,還可以從Hugging Face網站上挑選喜歡的預訓練語言模型來抽換。
中文斷詞
這裡使用CKIP Tagger來進行斷詞,CKIP Tagger除了斷詞外,還能用來詞性標註和實體辨識,我們這邊只使用它的斷詞功能,另外兩個功能我們下次再來進行介紹。
- 安裝ckiptagger
pip install -U ckiptagger[tf,gdown]
2. 讀取套件
from ckiptagger import data_utils, construct_dictionary, WS, POS, NER
3. 下載模型,可選擇其中一個來源下載,有時會因為下載次數過多無法下載,可以嘗試切換下載資源。
# data_utils.download_data_gdown("./") # gdrive-ckip
data_utils.download_data_url("./") # iis-ckip
4. 讀取模型,Ckip Tagger包含斷詞(WS)、詞性標註(POS)、和實體辨識(NER)。詞性標註是將斷完的詞標註詞性,ex:我(N) 喜歡(V) 你(N)。實體辨識是從句子中挑選出實體,像是人名、組織名稱等等。這邊只用到斷詞,所以只讀取WS。
ws = WS("./data")
# pos = POS("./data")
# ner = NER("./data")
5. 文章範例
docs="台裔球星林書豪加盟高雄17直播鋼鐵人,12日首秀拿下21分,而個人單場13助攻追平聯盟紀錄,獲選台灣職籃P.LEAGUE+單週MVP,也是鋼鐵人本季首名獲此殊榮的球員。林書豪在球迷引頸期盼下,12日在主場高雄市鳳山體育館首度披上鋼鐵人7號戰袍出賽,率隊以95比80擊敗福爾摩沙台新夢想家,收下本季第3勝,終止4連敗。林書豪首秀先發上陣,吸引滿場超過5000名球迷進場,出賽逾41分鐘,繳出21分、13助攻的「雙10」成績,其中單場助攻數,更一舉追平台灣職籃P.LEAGUE+(簡稱PLG)紀錄。PLG聯盟今天公布第15週單週MVP,在球迷票選的部分,林書豪獲得66.9%壓倒性的得票率,成為鋼鐵人本季首名獲選單週最有價值球員(MVP)的球員。鋼鐵人接下來將展開客場之旅,18日將作客台中洲際迷你蛋,對手同樣是夢想家,鋼鐵人在林書豪帶領下,將力拚2連勝。"
6. 進行斷詞,ws函數可以一次傳入多篇文章進行斷詞,所以參數需要以list的格式輸入,再以[0]取出第一篇文章斷完詞的結果。
ws([docs])[0]
>>>
[台裔,球星,林書豪,加盟,高雄,17,直播,鋼鐵人,,,12日,首秀,拿下,21,分,,,而,個人,單,場,13,助攻,追平,聯盟,紀錄,,,獲選,台灣,職籃,P.,LEAGUE+,單,週,MVP,,,也,是,鋼鐵人,本,季,首,名,獲,此,殊榮,的,球員,。,林書豪,在,球迷,引頸,期盼,下,,,12日,在,主場,高雄市,鳳山,體育館,首度,披上,鋼鐵人,7,號,戰袍,出賽,,率隊,以,95,比,80,擊敗,福爾摩沙,台新,夢想家,,,收下,本,季,第3,勝,,,終止,4,連敗,。,林書豪,首秀,先發,上陣,,,吸引,滿,場,超過,5000,名,球迷,進場,,,出賽,逾,41,分鐘,,,繳出,21,分,、,13,助攻,的,「,雙,10,」,成績,,,其中,單場,助攻數,,,更,一舉,追平,台灣,職籃,P,.,LEAGUE+,(,簡稱,PLG,),紀錄,。,PLG,聯盟,今天,公布,第15,週,單,週,MVP,,,在,球迷,票選,的,部分,,,林書豪,獲得,66.9%,壓倒性,的,得票率,,,成為,鋼鐵人,本,季,首,名,獲選,單,週,最,有,價值,球員,(,MVP,),的,球員,。,鋼鐵人,接下來,將,展開,客場,之,旅,,,18日,將,作客,台中,洲際,迷你蛋,,,對手,同樣,是,夢想家,,,鋼鐵人,在,林書豪,帶領,下,,,將,力拚,2,連勝,。]
KeyBERT使用
斷完詞後,我們可以開始進行關鍵字抽取了。
- 安裝KeyBERT
pip install keybert
2. 讀取KeyBERT和CountVectorizer套件,CountVectorizer是用來計算字詞詞頻用的。
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer
3. 改寫剛剛上面斷詞時所使用的ws函式,將斷詞函式改寫成只對單一篇文章斷詞,並回傳斷詞結果。
def ws_zh(text):
words = ws([text])
return words[0]
4. 創建CountVectorizer
vectorizer =CountVectorizer(tokenizer=ws_zh)
5. 使用KeyBERT進行關鍵字抽取,得到關鍵字結果及關鍵字分數。
kw_model = KeyBERT()
keywords = kw_model.extract_keywords(docs,vectorizer=vectorizer)
keywords
>>>
[('p.league+', 0.3402),
('追平', 0.2293),
('首秀', 0.2227),
('林書豪', 0.2156),
('連勝', 0.1852)]
模型抽換
剛剛的關鍵字抽取,是使用預設的embedding模型,embedding模型會大大影響關鍵字的結果,我們從Hugging Face挑選一個多語言的embedding模型,可以看到抽取出來的關鍵字有不同的結果,大家也可以從Hugging Face挑選自己喜歡的模型來抽換。
kw_model = KeyBERT(model='distiluse-base-multilingual-cased-v1')
keywords = kw_model.extract_keywords(docs,vectorizer=vectorizer)
keywords
>>>
[('林書豪', 0.286),
('鋼鐵人', 0.2723),
('職籃', 0.2184),
('鳳山', 0.2178),
('體育館', 0.1903)]
相信大家都已經學會使用KeyBERT來抽取中文文章的關鍵字,完全沒碰過自然語言處理的朋友可能會不知道什麼是embedding,embedding是將文字轉換成向量,讓電腦或機器能夠讀懂人類語言的一種方式,embedding的模型有許多種,之後再寫一篇文章詳細的介紹文字嵌入(word embedding)。