行业动态Python进行网页文本处理
Python进行网页文本处置。
网页文本中的中英文处置的差别在于中文须要额外参加分词处置进程。所谓分词就是将一段文本文字分成一个个词组的进程。
具体处置流程为:加载jieba分词包进行中文分词;将分词后的词组去失落停用词及一个字符的词后, 输出练习文本中的常用分词和熟习的词组;在练习文本的数据练习及情绪辞书的归档中将爬取获得的网页数据的客不雅性文天职词后放入变量中, 主不雅类情绪文本放入另一变量中;为主动获得网页文本中主要的症结词组, 过滤失落对网页文本意义进献不年夜的常用词组, 在chi2模块的特点选择下, 采取词频-逆文本频率 (TF-IDF) 概念将分词词组变量转换为tf-idf向量情势, 输出分词向量矩阵, 为下一阶段的网页文本情绪剖析做预备。