乱码乱a∨中文字幕,在线免费激情视频,亚洲欧美久久夜夜潮,国产在线网址

<sub id="hjl7n"></sub>

<sub id="hjl7n"></sub>

<legend id="hjl7n"></legend>

首頁

營銷

財(cái)富

IDC

IT資訊

創(chuàng)業(yè)頭條

創(chuàng)業(yè)加盟

服務(wù)市場

創(chuàng)業(yè)項(xiàng)目加盟: 招商合作; VIP特權(quán); 最新創(chuàng)業(yè)項(xiàng)目; 創(chuàng)業(yè)項(xiàng)目排行榜

網(wǎng)站服務(wù): SEO診斷; SEO顧問

營銷推廣服務(wù): A5全媒體平臺; 品牌營銷; 企業(yè)會員; 小紅書推廣; 快手信息流開戶; 云主機(jī)優(yōu)惠

當(dāng)前位置：首頁 > 站長 > 編程技術(shù) > 正文

品牌
標(biāo)簽
企業(yè)會員

基于xpath選擇器PyQuery正則表達(dá)式的格式清理工具詳解

2020-11-02 11:15 來源：腳本之家我來投稿撤稿糾錯(cuò)

　阿里云優(yōu)惠券先領(lǐng)券再下單

這篇文章主要介紹了基于xpath選擇器、PyQuery、正則表達(dá)式的格式清理工具，本文給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

1，使用xpath清理不必要的標(biāo)簽元素，以及無內(nèi)容標(biāo)簽

from lxml import etree

def xpath_clean(self, text: str, xpath_dict: dict) -> str:
    '''
    xpath 清除不必要的元素
    :param text: html_content
    :param xpath_dict: 清除目標(biāo)xpath
    :return: string type html_content
    '''
    remove_by_xpath = xpath_dict if xpath_dict else dict()

    # 必然清除的項(xiàng)目除非極端情況一般這些都是要清除的
    remove_by_xpath.update({
      '_remove_2': '//iframe',
      '_remove_4': '//button',
      '_remove_5': '//form',
      '_remove_6': '//input',
      '_remove_7': '//select',
      '_remove_8': '//option',
      '_remove_9': '//textarea',
      '_remove_10': '//figure',
      '_remove_11': '//figcaption',
      '_remove_12': '//frame',
      '_remove_13': '//video',
      '_remove_14': '//script',
      '_remove_15': '//style'
    })

    parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
    selector = etree.HTML(text, parser=parser)

    # 常規(guī)刪除操作，不需要的標(biāo)簽刪除
    for xpath in remove_by_xpath.values():
      for bad in selector.xpath(xpath):
        bad_string = etree.tostring(bad, encoding='utf-8',
                      pretty_print=True).decode()
        logger.debug(f"clean article content : {bad_string}")
        bad.getparent().remove(bad)

    skip_tip = "name()='img' or name()='tr' or " \
          "name()='th' or name()='tbody' or " \
          "name()='thead' or name()='table'"
    # 判斷所有p標(biāo)簽，是否有內(nèi)容存在，沒有的直接刪除
    for p in selector.xpath(f"http://*[not({skip_tip})]"):
      # 跳過邏輯
      if p.xpath(f".//*[{skip_tip}]") or \
          bool(re.sub('\s', '', p.xpath('string(.)'))):
        continue

      bad_p = etree.tostring(p, encoding='utf-8',
                  pretty_print=True).decode()
      logger.debug(f"clean p tag : {bad_p}")
      p.getparent().remove(p)

    return etree.tostring(selector, encoding='utf-8',
               pretty_print=True).decode()

2，使用pyquery清理標(biāo)簽屬性，并返回處理后源碼和純凈文本

#!/usr/bin/env python
# -*-coding:utf-8-*-

from pyquery import PyQuery as pq

def pyquery_clean(self, text, url, pq_dict) -> object:
    '''
    pyquery 做出必要的處理，
    :param text:
    :param url:
    :param pq_dict:
    :return:
    '''
    # 刪除pq表達(dá)式字典
    remove_by_pq = pq_dict if pq_dict else dict()
    # 標(biāo)簽屬性白名單
    attr_white_list = ['rowspan', 'colspan']
    # 圖片鏈接key
    img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
    # 生成pyquery對象
    dom = pq(text)

    # 刪除無用標(biāo)簽
    for bad_tag in remove_by_pq.values():
      for bad in dom(bad_tag):
        bad_string = pq(bad).html()
        logger.debug(f"clean article content : {bad_string}")
      dom.remove(bad_tag)

    # 標(biāo)簽各個(gè)屬性處理
    for tag in dom('*'):
      for key, value in tag.attrib.items():
        # 跳過邏輯，保留表格的rowspan和colspan屬性
        if key in attr_white_list:
          continue
        # 處理圖片鏈接，不完整url，補(bǔ)充完整后替換
        if key in img_key_list:
          img_url = self.absolute_url(url, value)
          pq(tag).remove_attr(key)
          pq(tag).attr('src', img_url)
          pq(tag).attr('alt', '')
        # img標(biāo)簽的alt屬性保留為空
        elif key == 'alt':
          pq(tag).attr(key, '')
        # 其余所有屬性做刪除操作
        else:
          pq(tag).remove_attr(key)

    return dom.text(), dom.html()

3，正則表達(dá)清理空格以及換行符內(nèi)容

#!/usr/bin/env python
# -*-coding:utf-8-*-

import re

def regular_clean(self, str1: str, str2: str):
    '''
    正則表達(dá)式處理數(shù)據(jù)格式
    :param str1: content
    :param str2: html_content
    :return: 返回處理后的結(jié)果
    '''

    def new_line(text):
      text = re.sub('<br\s?/?>', '<br>', text)
      text = re.sub(
        '</?a>|</?em>|</?html>|</?body>|'
        '</?head>|<[a-zA-Z]{1,10}\s?/>|'
        '</?strong>|</?blockquote>|</?b>|'
        '</?span>|</?i>|</?hr>|</?font>',
        '',
        text)
      text = re.sub('\n', '', text)
      text = re.sub('<h[1-6]>', '<p>', text)
      text = re.sub('</h[1-6]>', '</p>', text)
      text = text.replace('</p>', '</p>\n').replace('<br>', '<br/>')
      return text

    str1, str2 = self.clean_blank(str1), self.clean_blank(str2) # TODO 處理空白行問題

    # TODO html_content處理 1，刪除多余的無法使用的標(biāo)簽以及影響數(shù)據(jù)展示的標(biāo)簽 2，換行符問題處理以及更換

    str2 = new_line(text=str2)

    return str1, str2

結(jié)尾部分，各個(gè)方法封裝類代碼展示

#!/usr/bin/env python
# -*-coding:utf-8-*-
'''
author: szhan
date：2020-08-17
summery: 清理html_conent以及獲取純凈數(shù)據(jù)格式
'''

import re
from lxml import etree
from pyquery import PyQuery as pq
from urllib.parse import urlsplit, urljoin

from loguru import logger

class CleanArticle:

def __init__(
      self,
      text: str,
      url: str = '',
      xpath_dict: dict = None,
      pq_dict: dict = None
):
    self.text = text
    self.url = url
    self.xpath_dict = xpath_dict or dict()
    self.pq_dict = pq_dict or dict()

@staticmethod
def absolute_url(baseurl: str, url: str) -> str:
    '''
    補(bǔ)充url
    :param baseurl:scheme url
    :param url: target url
    :return: complete url
    '''
    target_url = url if urlsplit(url).scheme else urljoin(baseurl, url)
    return target_url

@staticmethod
def clean_blank(text):
    '''
    空白處理
    :param text:
    :return:
    '''
    text = text.replace('', '').replace('\u3000', '').replace('\t', '').replace('\xa0', '')
    text = re.sub('\s{2,}', '', text)
    text = re.sub('\n{2,}', '\n', text)
    text = text.strip('\n').strip()
    return text

def run(self):
    '''
    :return:處理后的content, html_content
    '''
    if (not bool(self.text)) or (not isinstance(self.text, str)):
      raise ValueError('html_content has a bad type value')
    # 首先，使用xpath去除空格，以及注釋，iframe, button, form, script, style, video等標(biāo)簽
    text = self.xpath_clean(self.text, self.xpath_dict)

    # 第二步，使用pyquery處理具體細(xì)節(jié)方面
    str1, str2 = self.pyquery_clean(text, self.url, self.pq_dict)

    # 最終的正則處理
    content, html_content = self.regular_clean(str1, str2)

    return content, html_content

def xpath_clean(self, text: str, xpath_dict: dict) -> str:
    '''
    xpath 清除不必要的元素
    :param text: html_content
    :param xpath_dict: 清除目標(biāo)xpath
    :return: string type html_content
    '''
    remove_by_xpath = xpath_dict if xpath_dict else dict()

    # 必然清除的項(xiàng)目除非極端情況一般這些都是要清除的
    remove_by_xpath.update({
      '_remove_2': '//iframe',
      '_remove_4': '//button',
      '_remove_5': '//form',
      '_remove_6': '//input',
      '_remove_7': '//select',
      '_remove_8': '//option',
      '_remove_9': '//textarea',
      '_remove_10': '//figure',
      '_remove_11': '//figcaption',
      '_remove_12': '//frame',
      '_remove_13': '//video',
      '_remove_14': '//script',
      '_remove_15': '//style'
    })

    parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
    selector = etree.HTML(text, parser=parser)

    # 常規(guī)刪除操作，不需要的標(biāo)簽刪除
    for xpath in remove_by_xpath.values():
      for bad in selector.xpath(xpath):
        bad_string = etree.tostring(bad, encoding='utf-8',
                      pretty_print=True).decode()
        logger.debug(f"clean article content : {bad_string}")
        bad.getparent().remove(bad)

    skip_tip = "name()='img' or name()='tr' or " \
          "name()='th' or name()='tbody' or " \
          "name()='thead' or name()='table'"
    # 判斷所有p標(biāo)簽，是否有內(nèi)容存在，沒有的直接刪除
    for p in selector.xpath(f"http://*[not({skip_tip})]"):
      # 跳過邏輯
      if p.xpath(f".//*[{skip_tip}]") or \
          bool(re.sub('\s', '', p.xpath('string(.)'))):
        continue

      bad_p = etree.tostring(p, encoding='utf-8',
                  pretty_print=True).decode()
      logger.debug(f"clean p tag : {bad_p}")
      p.getparent().remove(p)

    return etree.tostring(selector, encoding='utf-8',
               pretty_print=True).decode()

def pyquery_clean(self, text, url, pq_dict) -> object:
    '''
    pyquery 做出必要的處理，
    :param text:
    :param url:
    :param pq_dict:
    :return:
    '''
    # 刪除pq表達(dá)式字典
    remove_by_pq = pq_dict if pq_dict else dict()
    # 標(biāo)簽屬性白名單
    attr_white_list = ['rowspan', 'colspan']
    # 圖片鏈接key
    img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
    # 生成pyquery對象
    dom = pq(text)

    # 刪除無用標(biāo)簽
    for bad_tag in remove_by_pq.values():
      for bad in dom(bad_tag):
        bad_string = pq(bad).html()
        logger.debug(f"clean article content : {bad_string}")
      dom.remove(bad_tag)

    # 標(biāo)簽各個(gè)屬性處理
    for tag in dom('*'):
      for key, value in tag.attrib.items():
        # 跳過邏輯，保留表格的rowspan和colspan屬性
        if key in attr_white_list:
          continue
        # 處理圖片鏈接，不完整url，補(bǔ)充完整后替換
        if key in img_key_list:
          img_url = self.absolute_url(url, value)
          pq(tag).remove_attr(key)
          pq(tag).attr('src', img_url)
          pq(tag).attr('alt', '')
        # img標(biāo)簽的alt屬性保留為空
        elif key == 'alt':
          pq(tag).attr(key, '')
        # 其余所有屬性做刪除操作
        else:
          pq(tag).remove_attr(key)

    return dom.text(), dom.html()

def regular_clean(self, str1: str, str2: str):
    '''
    正則表達(dá)式處理數(shù)據(jù)格式
    :param str1: content
    :param str2: html_content
    :return: 返回處理后的結(jié)果
    '''

    def new_line(text):
      text = re.sub('<br\s?/?>', '<br>', text)
      text = re.sub(
        '</?a>|</?em>|</?html>|</?body>|'
        '</?head>|<[a-zA-Z]{1,10}\s?/>|'
        '</?strong>|</?blockquote>|</?b>|'
        '</?span>|</?i>|</?hr>|</?font>',
        '',
        text)
      text = re.sub('\n', '', text)
      text = re.sub('<h[1-6]>', '<p>', text)
      text = re.sub('</h[1-6]>', '</p>', text)
      text = text.replace('</p>', '</p>\n').replace('<br>', '<br/>')
      return text

    str1, str2 = self.clean_blank(str1), self.clean_blank(str2) # TODO 處理空白行問題

    # TODO html_content處理 1，刪除多余的無法使用的標(biāo)簽以及影響數(shù)據(jù)展示的標(biāo)簽 2，換行符問題處理以及更換

    str2 = new_line(text=str2)

    return str1, str2

if __name__ == '__main__':
with open('html_content.html', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    html = ''
    for line in lines:
      html += line
ca = CleanArticle(text=html)
_, html_content = ca.run()
print(html_content)

總結(jié)

到此這篇關(guān)于基于xpath選擇器、PyQuery、正則表達(dá)式的格式清理工具詳解的文章就介紹到這了,更多相關(guān)PyQuery、正則表達(dá)式的格式清理工具內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

來源：腳本之家

鏈接：https://www.jb51.net/article/194906.htm

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)標(biāo)簽: 正則表達(dá)式

相關(guān)文章

Eclipse使用正則表達(dá)式快速修改代碼的方法

這篇文章主要介紹了Eclipse使用正則表達(dá)式快速修改代碼的方法，本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

標(biāo)簽：

正則表達(dá)式

代碼設(shè)計(jì)
通過正則表達(dá)式驗(yàn)證IP和端口格式的正確性

這篇文章主要介紹了正則表達(dá)式驗(yàn)證IP和端口格式的正確性，本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

標(biāo)簽：

正則表達(dá)式
java正則表達(dá)式判斷前端參數(shù)修改表中另一個(gè)字段的值

這篇文章主要介紹了java正則表達(dá)式判斷前端參數(shù)修改表中另一個(gè)字段的值,需要的朋友可以參考下

標(biāo)簽：

正則表達(dá)式

java
使用正則表達(dá)式生成隨機(jī)數(shù)據(jù)的方法

這篇文章主要介紹了使用正則表達(dá)式生成隨機(jī)數(shù)據(jù)的方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

標(biāo)簽：

正則表達(dá)式
js處理網(wǎng)頁編輯器轉(zhuǎn)義去除轉(zhuǎn)義去除HTML標(biāo)簽的正則

這篇文章主要介紹了富文本編輯器生成的HTML標(biāo)簽，進(jìn)行轉(zhuǎn)義，然后寫入數(shù)據(jù)庫，防止腳本注入,需要的朋友可以參考下

標(biāo)簽：

正則表達(dá)式

html

加載更多

熱門排行

信息推薦

編輯推薦

熱門標(biāo)簽

雙11 網(wǎng)絡(luò)個(gè)人隱私 lol英雄百度大腦百度移動搜索永安行女孩乘滴滴遇害創(chuàng)業(yè)活動賈躍亭回應(yīng)勝訴小米任命盧偉冰奶茶妹妹網(wǎng)絡(luò)購物平臺換友情鏈接樂視大廈遭拍賣王者榮耀覺醒之戰(zhàn) 建行回應(yīng)上線數(shù)字貨幣兒童智能平衡車餓了嗎商家版抖音權(quán)限手游游戲