這是...提供...給...檳友...發文...用的...程式
但...看來...斷詞...尚...不夠...精準
之後...寫好...再給...各位...使用
#啾司程式教學
#財哥專業檳榔攤
#財哥
#Jieba
#斷詞
#結巴斷詞
#結石斷詞
#財哥斷詞
「jieba斷詞」的推薦目錄:
- 關於jieba斷詞 在 啾耍起司 Facebook 的最讚貼文
- 關於jieba斷詞 在 啾耍起司 Facebook 的最佳解答
- 關於jieba斷詞 在 Kewang 的資訊進化論 Facebook 的最佳貼文
- 關於jieba斷詞 在 [問題] 編碼問題求救- 看板Python - 批踢踢實業坊 的評價
- 關於jieba斷詞 在 jieba-tw - 結巴中文斷詞台灣繁體版本 - GitHub 的評價
- 關於jieba斷詞 在 中文斷詞的新詞偵測技術 - Journey 的評價
- 關於jieba斷詞 在 [2019]中文自然語言處理技術基礎設施 - Facebook 的評價
- 關於jieba斷詞 在 大數據分析語言Python 網路社群文字探勘(Text Mining) 的評價
- 關於jieba斷詞 在 APCLab/jieba-tw - githubmemory 的評價
- 關於jieba斷詞 在 聊天機器人之研製-以PTT 八卦板文章為知識庫 - TANET 2019 的評價
- 關於jieba斷詞 在 分享中研院釋出國產中文斷詞工具原始碼啦! - 軟體工程師板 的評價
jieba斷詞 在 啾耍起司 Facebook 的最佳解答
這是...提供...給...檳友...發文...用的...程式
但...看來...斷詞...尚...不夠...精準
之後...寫好...再給...各位...使用
#啾司程式教學
#財哥專業檳榔攤
#財哥
#Jieba
#斷詞
#結巴斷詞
#結石斷詞
#財哥斷詞
jieba斷詞 在 Kewang 的資訊進化論 Facebook 的最佳貼文
小編到 Funliday 之後就是專注在 POI Bank 的開發,這篇文章出來後,總算可以公布 POI Bank 這個名稱了。年前最後一個工作天把 POI Bank 弄上線真的要有很大的勇氣,過年期間果然被使用者罵很慘,搜尋搜不到、沒有圖片、一堆景點名稱都是羅馬拼音...族繁不及備載。
除夕當天除了吃年夜飯跟打掃家裡以外,全部時間都拿來轉檔跟調整演算法,想辦法讓搜尋更精確,春節期間真的是整個團隊都沒好好過年。但也是這樣的壓力測試,讓 Funliday 可以快速迭代!
不過過完年後看到使用者操作的真實數據後,發現 POI Bank 真的是大有可為,就像文內所舉的其中一例:
「舉個例子,若我們從觀察用戶的數據資料,發現這個假期許多人計畫去某觀光景點,也許就能跟該觀光景點合作,提早讓店主掌握狀況預先處理,提供更好的旅遊品質給民眾。」
其實 POI Bank 能做到的遠遠不只這個,但就讓 Funliday 賣個關子吧 XDDD
---
這裡順便來聊一下搜尋精準度的問題,整整一個月除了上星期小編去東京考察以外,每天都在調整精準度。
這星期回來重新思考跟測試後,發現根本就是斷詞的問題,雖然用了大家都推薦的 jieba 結巴斷詞,但沒用台灣詞庫,斷出來的結果真的是慘不忍睹。
這週二 (2/26) 把用了台灣詞庫的搜尋丟上去之後,情況看來好了很多。因為搜尋精準度太難用程式量化了,所以現在加了 ab testing 上去,每幾天用工人智慧看一下大家的使用狀況後,再持續最佳化下去了。
---
因為沒心力做行銷,Funliday 現在只能口耳相傳,一傳十十傳百,希望沒使用過 Funliday 的朋友看到這篇文章之後,能下載來用用看,對你出門旅遊絕對有很大的幫助,有使用過的朋友,也幫忙多拉幾個朋友來使用。
Android 的共同編輯跟 Web 完整版就快要上線了,希望大家以後多多支持 Funliday 啦!
#funliday #poibank
jieba斷詞 在 jieba-tw - 結巴中文斷詞台灣繁體版本 - GitHub 的推薦與評價
結巴中文斷詞台灣繁體版本. Contribute to APCLab/jieba-tw development by creating an account on GitHub. ... <看更多>
jieba斷詞 在 中文斷詞的新詞偵測技術 - Journey 的推薦與評價
談到自然語言處理(NLP)的中文斷詞技術,我們通常都會直接聯想並使用Jieba 套件,網路上也有許多人分享了Jieba 套件的功能介紹與使用方法。 ... <看更多>
jieba斷詞 在 [問題] 編碼問題求救- 看板Python - 批踢踢實業坊 的推薦與評價
不好意思!! 小弟為新手
在JIEBA斷詞的過程中遇到編碼的問題
想請教一下各位高手,是否有方法可以解決或是我哪裡沒注意到
麻煩提點一下
程式碼:
#-*- coding: utf-8 -*-
# -*- coding: cp950 -*-
import jieba
jieba.set_dictionary('dict.txt.big')
ret = open ('speech.txt', "r",encoding = 'utf-8').read()
seglist = jieba.cut(ret, cut_all=False)
import json
hash = {}
for item in seglist:
if item in hash:
hash[item] += 1
else:
hash[item] = 1
json.dump(hash,open("count.json","w",encoding ='utf-8'),ensure_ascii=False)
fd = open("count.csv","w",encoding ='utf-8')
fd.write("word,count\n")
for k in hash:
fd.write("%s,%d\n"%(k.encode("utf8"),hash[k]))------>目前已經查出為這行程式的問題
但不知道如何修改可以輸出成中文,依照目前程式輸出為ASCII的編碼
拜託了~~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.250.159.33
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1486208790.A.AC3.html
... <看更多>