用python正则表达式提取网页的url，python正则表达式,[Python]代码im

文章由Byrx.net分享于2019-03-23 08:03:55评论（5）

用python正则表达式提取网页的url，python正则表达式,[Python]代码im

[Python]代码

import reimport urlliburl="http://www.baidu.com"s=urllib.urlopen(url).read()ss=s.replace(" ","")urls=re.findall('&lt;a.*?href=.*?&lt;\/a&gt;',ss,re.I) for i in urls:    print ielse:    print '显示完成'不过这样也有一点问题,如果"&lt;a href="  里面有用到javascript,且用到一个  "&gt; " 小于号的话 就会匹配其他错误的URL,大家有什么更好办法不妨告诉我.&gt;&gt;&gt; &lt;ahref="http://www.baidu.com/gaoji/preferences.html"name="tj_setting"&gt;搜索设置&lt;/a&gt;&lt;ahref=";"&gt;登录&lt;/a&gt;&lt;ahref=""&gt;注册&lt;/a&gt;&lt;ahref="http://news.baidu.com"&gt;新&amp;nbsp;闻&lt;/a&gt;&lt;ahref="http://tieba.baidu.com"&gt;贴&amp;nbsp;吧&lt;/a&gt;&lt;ahref="http://zhidao.baidu.com"&gt;知&amp;nbsp;道&lt;/a&gt;&lt;ahref="http://mp3.baidu.com"&gt;MP3&lt;/a&gt;&lt;ahref="http://image.baidu.com"&gt;图&amp;nbsp;片&lt;/a&gt;&lt;ahref="http://video.baidu.com"&gt;视&amp;nbsp;频&lt;/a&gt;&lt;ahref="http://map.baidu.com"&gt;地&amp;nbsp;图&lt;/a&gt;&lt;ahref="#"name="ime_hw"&gt;手写&lt;/a&gt;&lt;ahref="#"name="ime_py"&gt;拼音&lt;/a&gt;&lt;ahref="#"name="ime_cl"&gt;关闭&lt;/a&gt;&lt;ahref="http://baike.baidu.com"&gt;百科&lt;/a&gt;&lt;ahref="http://wenku.baidu.com"&gt;文库&lt;/a&gt;&lt;ahref="http://www.hao123.com"&gt;hao123&lt;/a&gt;&lt;ahref="http://www.baidu.com/more/"&gt;更多&amp;gt;&amp;gt;&lt;/a&gt;&lt;aid="seth"onClick="h(this)"href="/"onmousedown="returnns_c({'fm':'behs','tab':'homepage','pos':0})"&gt;把百度设为主页&lt;/a&gt;&lt;aid="setf"href=""&gt;把百度设为主页&lt;/a&gt;&lt;ahref="})"&gt;把百度添加到桌面&lt;/a&gt;&lt;ahref="http://e.baidu.com/?refer=888"&gt;加入百度推广&lt;/a&gt;&lt;ahref="http://top.baidu.com"&gt;搜索风云榜&lt;/a&gt;&lt;ahref="http://home.baidu.com"&gt;关于百度&lt;/a&gt;&lt;ahref="http://ir.baidu.com"&gt;AboutBaidu&lt;/a&gt;&lt;ahref="/duty/"&gt;使用百度前必读&lt;/a&gt;&lt;ahref="http://www.miibeian.gov.cn"target="_blank"&gt;京ICP证030173号&lt;/a&gt;显示完成

热门文章：

用python正则表达式提取网页的url，python正则表达式,[Python]代码im

用python正则表达式提取网页的url，python正则表达式,[Python]代码im

相关内容

最新python源码实例

python~HOT