TM Overview
Last updated
Last updated
在文字探勘與自然語言處理基礎的部分,我主要採用為期六週的課程模組。瀚萱老師和我在2018年九月合作在台大經濟系開設「社會科學程式設計」課程。這門課教學的內容為Python基礎,但我們運用了大量的開放資料案例和文字處理的案例來介紹Python的語法與使用,才能在短短一個學期內,講授完Python基礎與文字探勘的內容。黃瀚萱老師是台大資工自然語言處理實驗室畢業,文字探勘和自然語言處理是他的拿手好戲,尚未畢業就被延請到中研院講授自然語言處理,一畢業就被聘用到政大資科。他除了實力相當好外,他也是我認為願意從事資訊跨域教學的熱血教師。在合作期間,他更與我互相觀摩,才能夠把整學期課程銜接的非常好。
本部分的內容將從基本文字處理流程開始,除了後續的向量化、特徵萃取的概念與做法外,尚會順便講授函式(function)與物件導向的觀念,最後將會帶入機器學習方法,對文本進行分類等實際應用。當你理解這部分內容,你應該有足夠的實力可以銜接資訊科系自然語言處理或機器學習等更深入的進階課程。