import re def parse(): # 匹配所有的a标签 link_re = re.compile(r'<a.*?>') p_re = re.compile(r'<p.*?>') span_re = re.compile(r'<span.*?>') font_re = re.compile(r'<font.*?>') tb_re = re.compile(r'<table.*?>') tr_re = re.compile(r'<tr.*?>') td_re = re.compile(r'<td.*?>') table = ''' <p style="text-indent: 2em; text-align: left;"><span style="font-family: 微软雅黑; font-size: 16px;"><span style="font-family: 微软雅黑; font-size: 16px;"></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p> ''' # match = zh_pattern.search(article_title_en) table = re.sub(p_re, '<p>', table) table = re.sub(span_re, '<span>', table) table = re.sub(tb_re, '<table>', table) table = re.sub(tr_re, '<tr>', table) table = re.sub(td_re, '<td>', table) table = re.sub(font_re, '<font>', table) print(table) if __name__ == '__main__': parse()
执行后输出:
<p><span><span></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表 可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p>