文章

目前顯示的是 七月, 2017的文章

[開源] gossip_gensim 八卦版鄉民斷詞分析

開源的部份請見連結 gossip_genim in github

作法參考 以 gensim 訓練中文詞向量

訓練資料是之前從 ptt 八卦版爬下來的文章及推文,資料範圍大概是 2017年4月下旬發文
及推文的文字內容。



原本爬下來的推文是用來做 ChatBot,希望這 ChatBot 能以鄉民的口吻跟使用者聊天。
 使用 python library ChatterBot ,正所謂魔鬼藏在細節裡,當所有詞句都塞進去訓練後,
 因為資料量過於龐大(其實我覺得並不多呀~~),反應非常緩慢,一句話要數分鐘才有
 反應,嘗試就效能的部份改善這 ChatterBot 專案,還是無功而返,現在就邊走邊看是不是
 有更好效能的版本推出囉!

回過頭來,八卦鄉民斷詞分析的結果還是來看一下吧!

這裡的示範就不要跟 github 一樣,來看看有什麼好玩的。

道德感
相似詞前 10 排序
鄉願,0.9327921271324158
出於,0.9301384091377258
半斤八兩,0.9297078251838684
不同於,0.9280074834823608
大開眼界,0.9261846542358398
不一,0.9260203242301941
情意,0.923358678817749
人們,0.9223132133483887
身處,0.9210435748100281
字詞,0.9183312058448792
----------------------------
情意
相似詞前 10 排序
特質,0.9544895887374878
出於,0.9533513784408569
抨擊,0.9482460618019104
世俗,0.9448075294494629
無論是,0.9444169402122498
這裡面,0.9436346888542175
Bl,0.943479061126709
得以,0.9434195160865784
一代宗師,0.9433241486549377
邏輯性,0.940061092376709
----------------------------
流動
相似詞前 10 排序
情慾,0.8976155519485474
憧憬,0.8838305473327637
大逆轉,0.8748572468757629
自信心,0.8727014660835266
詩書,0.867963969707489