欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > python jieba庫的基本使用

python jieba庫的基本使用

熱門標簽:400電話 申請 條件 南京crm外呼系統排名 crm電銷機器人 賓館能在百度地圖標注嗎 電銷機器人 金倫通信 鄭州智能外呼系統中心 汕頭電商外呼系統供應商 云南地圖標注 北京外呼電銷機器人招商

一、jieba庫概述

jieba是優秀的中文分詞第三方庫

  • 中文文本需要通過分詞獲得單個的詞語
  • jieba是優秀的中文分詞第三方庫,需要額外安裝
  • jieba庫提供三種分詞模式,最簡單只需要掌握一個函數

二、jieba庫安裝

pip install jieba

三、jieba分詞的原理

jieba分詞依靠中文詞庫

  • 利用一個中文詞庫,確定漢字之間的關聯概率
  • 漢字間概率大的組成詞組,形成分詞結果

四、jieba分詞的3種模式

  • 精確模式:把文本精確地切分開,不存在冗余單詞(最常用)
  • 全模式:把文本中所有可能的詞語都掃描出來,有冗余
  • 搜索引擎模式:在精確模式的基礎上,對長詞再次切分

五、jieba庫常用函數

函數 描述
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut("中國是一個偉大的國家")
['中國', '是', '一個', '偉大', '的', '國家']

>>> jieba.lcut("中國是一個偉大的國家", cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

六、文本詞頻示例

問題分析

  • 英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

  • 中文文本: 《三國演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText():
 # 打開 hamlet.txt 這個文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小寫對詞頻統計的干擾,將所有單詞轉換為小寫
 txt = txt.lower()
 # 將文中出現的所有特殊字符替換為空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一個所以后單詞都是小寫的,單詞間以空格間隔的文本
 return txt

hamletTxt = getText()
# split() 默認使用空格作為分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據單詞出現的次數進行排序,其中使用了 lambda 函數。更多解釋請看:
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統計《三國演義》中任務出場的次數:

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  953
孔明  836
將軍  772
卻說  656
玄德  585
關公  510
丞相  491
二人  469
不可  440
荊州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
張飛  358

我們可以看到得出的結果與我們想象的有些差異,比如

  • “卻說”、“二人”等與人名無關
  • “諸葛亮”、“孔明”都是同一個人
  • “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優化,在詞頻統計的基礎上,面向問題改造我們的程序。

下面是《三國演義》人物數量統計代碼的升級版,升級版中對于某些確定不是人名的詞,即使做了詞頻統計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "諸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "關公" or word == "云長":
 rword == "關羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "劉備"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  963
孔明  847
張飛  366
商議  359
如何  352
主公  340
軍士  320
呂布  303
左右  298
軍馬  297
趙云  283
劉備  282
引兵  279
次日  278
大喜  274

可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果,我們將這些詞加入到 excludes 中,多次運行程序后最后得到《三國演義》任務出場順序前20:

七、文本詞頻統計問題舉一反三

應用問題擴展

  • 《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統計它的任務出場次數
  • 政府工作報告、科研論文、新聞報道...中出現的大量的詞頻進行分析,進而找到每篇文章的重點內容
  • 進一步,對文本的詞語或詞匯繪制成詞云,使其展示的效果更加直觀

以上內容資料均來源于中國大學MOOC網-北京理工大學Python語言程序設計課程
課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內容,更多關于python jieba庫的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python jieba庫分詞模式實例用法
  • Python jieba庫用法及實例解析
  • Python基于jieba庫進行簡單分詞及詞云功能實現方法
  • Python中jieba庫的使用方法

標簽:錫林郭勒盟 梅州 文山 石家莊 西寧 懷化 浙江 昆明

巨人網絡通訊聲明:本文標題《python jieba庫的基本使用》,本文關鍵詞  python,jieba,庫,的,基本,使用,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python jieba庫的基本使用》相關的同類信息!
  • 本頁收集關于python jieba庫的基本使用的相關信息資訊供網民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    97国产精品videossex| 婷婷在线精品视频| 欧美一级一区二区| 首页国产丝袜综合| 亚洲熟女一区二区| 欧美猛男男办公室激情| 亚洲一区二区精品久久av| 亚洲妇女无套内射精| 老司机精品视频一区二区三区| 无码人妻一区二区三区在线| 在线视频中文字幕一区二区| 亚洲欧美一区二区三区国产精品| 成人网页在线观看| 91成人福利视频| 亚洲视频一区二区在线观看| 99久久er热在这里只有精品15| 色综合天天性综合| 日韩va亚洲va欧美va清高| 国产精品午夜春色av| 国产99精品在线观看| 国产大学生自拍| 亚洲靠逼com| 亚洲AV成人精品| 宅男在线国产精品| 青青草国产精品97视觉盛宴| 国产全是老熟女太爽了| 久久精品夜夜夜夜久久| 国产69精品久久777的优势| 国产1区2区3区4区| 亚洲国产成人91porn| 国产精品一区专区| 亚洲av综合一区二区| 26uuu亚洲综合色| 国产高清一区日本| 一本高清dvd不卡在线观看| 久久综合给合久久狠狠狠97色69| 韩国精品主播一区二区在线观看| 午夜激情视频在线播放| 最近中文字幕一区二区三区| 丰满人妻一区二区三区大胸 | 亚洲第一成人网站| 久久久久国产精品麻豆ai换脸 | 精品日韩欧美一区二区| 国内精品伊人久久久久av一坑| av最新在线观看| 亚洲综合视频在线| mm131美女视频| 国产精品色呦呦| 精品人妻二区中文字幕| 日韩精品一区二区三区蜜臀 | 亚洲一二三精品| 国产精品久久久久久妇女6080| 91免费观看视频| 欧美成人一区二区三区片免费| 国产精品资源在线| 欧美日韩亚洲综合| 久久99九九99精品| 澳门黄色一级片| 日韩在线卡一卡二| 人与动物性xxxx| 亚洲成人综合在线| 小早川怜子一区二区的演员表| 一区二区三区久久久| 97人妻天天摸天天爽天天| 国产蜜臀av在线一区二区三区| 91麻豆精品秘密| 久久蜜桃一区二区| 绯色av蜜臀vs少妇| 国产亚洲欧美色| 99免费观看视频| 国产精品天干天干在观线| 中文字幕一区二区三区乱码不卡| 久久久.com| 高清中文字幕mv的电影| 中文字幕av一区二区三区免费看 | 国产精品毛片久久久久久久| 中文字幕三级电影| 国产欧美一区二区精品婷婷| 日本黄色大片在线观看| 欧美激情一区二区三区不卡| 国产激情第一页| 一区在线观看免费| 日本一区二区视频在线播放| 亚洲一区二区在线播放相泽 | 国产精品毛片a∨一区二区三区| 亚洲国产综合视频| 亚洲激情在线激情| 182在线观看视频| 久久精品国产亚洲a| 欧美日本在线视频| www.爱久久.com| 久久久久久97三级| 国产十八熟妇av成人一区| 日韩一区在线播放| 国产不卡在线观看视频| 日韩黄色免费网站| 欧美美女直播网站| 94色蜜桃网一区二区三区| 国产亲近乱来精品视频| 香蕉网在线播放| 亚洲国产视频a| 色综合天天做天天爱| 国产一区二区三区在线看麻豆| 欧美卡1卡2卡| va亚洲va日韩不卡在线观看| 国产亚洲美州欧州综合国| 欧美做受喷浆在线观看| 亚洲成av人片在线观看| 欧美中文字幕不卡| 99视频在线精品| 久久女同性恋中文字幕| 色综合色综合色综合色综合色综合| 亚洲精品视频一区二区| 四虎地址8848| 毛片av中文字幕一区二区| 久久蜜桃av一区二区天堂| 91麻豆福利精品推荐| 国产精品久久综合| 青娱乐国产视频| 国产精品乱码妇女bbbb| 中文天堂资源在线| 毛片av一区二区三区| 欧美一级精品在线| 天堂久久久久久| 亚洲第一狼人社区| 制服丝袜亚洲色图| 日韩av手机在线播放| 视频一区中文字幕| 91精品国产麻豆国产自产在线 | 制服丝袜亚洲色图| 荫蒂被男人添免费视频| 亚洲成人动漫精品| 欧美日韩国产精选| 亚洲天堂av网站| 日韩成人一级片| 精品捆绑美女sm三区| 免费观看av网站| 久久99日本精品| 精品av久久707| 亚洲一级片在线播放| 国产经典欧美精品| 亚洲欧洲精品一区二区精品久久久| 色综合天天综合网天天狠天天 | 亚洲成av人片www| 91精品国产入口| 女尊高h男高潮呻吟| 在线观看视频91| 折磨小男生性器羞耻的故事| 午夜av一区二区三区| 日韩亚洲电影在线| 人人妻人人澡人人爽| 国产成人免费视频| 亚洲欧美偷拍三级| 777色狠狠一区二区三区| 欧美丰满少妇人妻精品| 久久91精品久久久久久秒播| 国产欧美精品一区二区三区四区| 国产精品九九九九九九| 亚洲成人精品在线播放| 日本亚洲电影天堂| 国产视频一区二区三区在线观看| 成人高潮免费视频| 94色蜜桃网一区二区三区| 日韩精品亚洲一区| 久久精品亚洲乱码伦伦中文| 91在线播放观看| 丰满熟女人妻一区二区三区| 蜜桃久久av一区| 国产精品理论片在线观看| 欧美日韩国产一二三| 久久av无码精品人妻系列试探| 国产福利91精品一区| 亚洲国产精品视频| 久久丝袜美腿综合| 欧美在线免费视屏| 精品少妇人妻一区二区黑料社区| 福利一区福利二区| 午夜伦理一区二区| 久久久精品国产99久久精品芒果| 色综合久久综合网97色综合| 亚州av综合色区无码一区| 国产精品一区二区视频| 一区二区免费在线播放| 欧美va亚洲va香蕉在线| 色香色香欲天天天影视综合网| 五月天激情小说| 大胆欧美人体老妇| 青椒成人免费视频| **性色生活片久久毛片| 日韩视频免费直播| 国产又爽又黄网站| 精品无码一区二区三区| 91丝袜美女网| 国产在线视频一区二区| 亚洲无人区一区| 国产精品女主播在线观看| 91精品国产欧美日韩| 色综合久久久网| 亚洲av熟女国产一区二区性色| 国产精品果冻传媒|