用Python 正则表达式识别楼主的实际操作步骤介绍


你知道如何用Python 正则表达式来识别楼主吗?如果你想知道用Python 正则表达式来识别楼主的实际应用方案的具体操作的话,你就可以点击以下的文章对其进行了解,望你会有所收获。

识别楼主:

帖子代码片段:<!-- 天涯百宝箱 -->

  1. <script>   
  2. var chrType = "public";   
  3. var intAuthorId = "";   
  4. var chrAuthorName = "GreyHouse";   
  5. var chrTitle = "[光影记录]跳蚤的欧洲之行";   
  6. var chrItem = 'travel';   
  7. var intItem = '0';   
  8. var intArticleId = "191157";   
  9. var tAuthor = 'GreyHouse';   
  10. </script>  

使用以下的Python 正则表达式来找到楼主:

  1. rereg_louzhu = re.compile('.*chrAuthorName = "(.*?)"; ' 

设mat为reg_louzhu.match(网页源码html行);则mat.groups()[0] 为楼主名字 GreyHouse

识别一个帖子的起始位置

继续分析html,发现天涯回帖一般都是用作者信息栏作为帖子的起始,那么帖子的尾部就是下一个作者信息栏之前咯。


  1. <
    TABLE cellspacing=0 border=0 bgcolor=f5f9fa 
    width=100><TR><TD WIDTH=100 ALIGN=RIGHT 
    VALIGN=bottom></TD><TD><font size=-1 
    color=green><br><center>作者:<a 
    href="/browse/Listwriter.asp?vid=11288815&vwriter=
    开着坦克逛街&idwriter=0&key=0"
     target=_blank>开着坦克逛街</a>  

以上内容就是对Python 正则表达式与识别一个帖子的起始位置的部分介绍

相关内容

    暂无相关文章

评论关闭