python jieba模块的使用举例

2017年12月4日14:45:00 发表评论

结巴分词

1.简述

中文分词是中文文本处理的一个基础性工作,长久以来,在Python编程领域,一直缺少高准确率、高效率的分词组建,结巴分词正是为了满足这一需求而提出。

2.安装

(1)全自动安装

在安装了easy—stall的情况之下可以全自动安装:easy_install jieba

(2)半自动安装

  • 下载地址:https://pypi.python.org/pypi/jieba/
  • 在cmd下找到具体的目录python setup.py安装

功能:

  1. # encoding=utf-8
  2. import jieba
  3. seg_list = jieba.cut("去北京大学玩123", cut_all=True)
  4. print("Full Mode: " + "/".join(seg_list))  # 全模式
  5. seg_list = jieba.cut("去北京大学玩123", cut_all=False)
  6. print("Default Mode: " + "/".join(seg_list))  # 精确模式
  7. seg_list = jieba.cut("他来到了南七技校")  # 默认是精确模式
  8. print("/".join(seg_list))
  9. seg_list = jieba.cut_for_search("今天是2015年9月3号,去天安门广场庆祝抗战胜利70周年")  # 搜索引擎模式
  10. print("/".join(seg_list))

教程案例:

  1. #! -*- coding:utf-8 -*-
  2. import jieba
  3. file = open('e:\guanjianci.txt')  #把你需要分词的文档路径修改成你自己的
  4. lines = file.readlines()
  5. for line in lines:
  6.     seg_list = jieba.cut(line)
  7.     print (line)
  8.     print("Default Mode: " + "/".join(seg_list))

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: