使用python正则表达式从Craigslist RSS提要中提取地址

我正在拔头发,试图解析出craigslist rss feed,以提取位置信息.

我使用feedparser将脚本解析为条目和条目描述.不幸的是,地址信息包含在描述部分的不规则标签中.

地址包含在以下部分中:

<!-- CLTAG xstreet0=11832 se 318pl  -->
<!-- CLTAG xstreet1= -->
<!-- CLTAG city=auburn -->
<!-- CLTAG region=wa -->
11832 se 318pl 

Feedparser不喜欢这些CLTAGS.我试图用正则表达式捕获第一行看起来像这样:

addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'

prog = re.compile(addressStart(.*?)addressEnd)
result = prog.match(string)

…但是那没有用.我究竟做错了什么?这是我正在使用的rss feed的链接’http://seattle.craigslist.org/see/apa/index.rss’

任何帮助是极大的赞赏!

解决方法:

那是一些无效的语法.除非用引号引起来,否则不能串联/格式化字符串.尝试:

addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'

prog = re.compile(addressStart + r'(.*?)' + addressEnd)
result = prog.match(string)
上一篇:c# – 连接到SSRS的数据馈送


下一篇:程序员如何使用RSS订阅网站更新