發表文章

目前顯示的是有「gensim」標籤的文章

[開源] gossip_gensim 八卦版鄉民斷詞分析

開源的部份請見連結 gossip_genim in github 作法參考 以 gensim 訓練中文詞向量 訓練資料是之前從 ptt 八卦版爬下來的文章及推文,資料範圍大概是 2017年4月下旬發文 及推文的文字內容。 原本爬下來的推文是用來做 ChatBot,希望這 ChatBot 能以鄉民的口吻跟使用者聊天。  使用 python library ChatterBot ,正所謂魔鬼藏在細節裡,當所有詞句都塞進去訓練後,  因為資料量過於龐大(其實我覺得並不多呀~~),反應非常緩慢,一句話要數分鐘才有  反應,嘗試就效能的部份改善這 ChatterBot 專案,還是無功而返,現在就邊走邊看是不是  有更好效能的版本推出囉! 回過頭來,八卦鄉民斷詞分析的結果還是來看一下吧! 這裡的示範就不要跟 github 一樣,來看看有什麼好玩的。 道德感 相似詞前 10 排序 鄉願,0.9327921271324158 出於,0.9301384091377258 半斤八兩,0.9297078251838684 不同於,0.9280074834823608 大開眼界,0.9261846542358398 不一,0.9260203242301941 情意,0.923358678817749 人們,0.9223132133483887 身處,0.9210435748100281 字詞,0.9183312058448792 ---------------------------- 情意 相似詞前 10 排序 特質,0.9544895887374878 出於,0.9533513784408569 抨擊,0.9482460618019104 世俗,0.9448075294494629 無論是,0.9444169402122498 這裡面,0.9436346888542175 Bl,0.943479061126709 得以,0.9434195160865784 一代宗師,0.9433241486549377 邏輯性,0.940061092376709 ---------------------------- 流動 相似詞前 10 排序 情慾,0.8976155519485474 憧憬,0.8838305473327637 大逆轉,0.87485724