R軟體在中文文字探勘的應用

R軟體在中文文字探勘的應用
時間:06/29 (ㄧ) 14:30-16:30
地點:口腔醫學大樓二樓階梯教室
講者:陳景祥 副教授

 「文字探勘」(Text Mining) 是利用資料探勘以及其他技術於文字資料分析的特殊技術。文字探勘的主要功能是從非結構化或半結構化文件、甚至是音樂、圖檔、影片中,擷取隱晦有用的片段、模型或規則,以及尚未被發掘、有潛在價值的資訊或知識。此外,由於中文不像英文一樣容易斷詞,加上中文文法的差異,中文文字探勘並不像英文文字探勘那麼容易入門。

 除了商業文字探勘軟體之外,國內外各界目前廣泛使用R軟體來作文字探勘的分析任務。我們將介紹R軟體在中文文字探勘的應用,包含中文斷詞、語料庫的建構、文件與詞彙的分群與分類、主題模型區分,以及情感分析或輿情分析的應用。