python正则去掉html标签里的css内容

 

  

import re


def parse():
    # 匹配所有的a标签
    link_re = re.compile(r'<a.*?>')
    p_re = re.compile(r'<p.*?>')
    span_re = re.compile(r'<span.*?>')
    font_re = re.compile(r'<font.*?>')
    tb_re = re.compile(r'<table.*?>')
    tr_re = re.compile(r'<tr.*?>')
    td_re = re.compile(r'<td.*?>')
    table = '''
    <p style="text-indent: 2em; text-align: left;"><span style="font-family: 微软雅黑; font-size: 16px;"><span style="font-family: 微软雅黑; font-size: 16px;"></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p>
    '''
    # match = zh_pattern.search(article_title_en)
    table = re.sub(p_re, '<p>', table)
    table = re.sub(span_re, '<span>', table)
    table = re.sub(tb_re, '<table>', table)
    table = re.sub(tr_re, '<tr>', table)
    table = re.sub(td_re, '<td>', table)
    table = re.sub(font_re, '<font>', table)
    print(table)


if __name__ == '__main__':
    parse()

  

执行后输出:

<p><span><span></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表 可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p>

 

上一篇:Android build.gradle配置文件


下一篇:java maven打包