请问Beautifulsoup抓取select标签中option文本方法是什么，,我要抓取的页面的内容是在

文章由Byrx.net分享于2019-03-23 04:03:38评论（403）

请问Beautifulsoup抓取select标签中option文本方法是什么，,我要抓取的页面的内容是在

我要抓取的页面的内容是在如下标签内的

<script language=javascript>parent.theZNPKT_CJJS1.innerHTML='<select id=T_CJJS1 name=T_CJJS1 style="HEIGHT: 20px;WIDTH:115"><option value=0000258>[0000789]Andrew</option></select>';</script>

我写的代码：

import urllib2from bs4 import BeautifulSoupurl = 'xxx'html = urllib2.urlopen(url)soup = BeautifulSoup(html, from_encoding = 'gbk')option = soup.findAll('option')f = open("out.txt", "w")print >> f, optionf.close()print option

抓取出来的结果全都是 <option value="0000049">[0000049]ANNA</option> 这样的，我想提取 [0000049]ANNA 这个内容怎样做呀？

很多东西都不懂，经过搜索换了一种方法提取出来了。用的是正则的方法：

import urllib2import reurl = 'xxx'html = urllib2.urlopen(url).read()patt = re.compile(r'<option.+?>(.+?)</option>')option = patt.findall(html)f = open("out.txt", "w")for value in option:    print value    f.writelines(value + '\n')f.close()

option也是个元素，不是属性，你是不是应该写为soup.findAll('select option')呢？我太久没有用BeautifulSoup了，具体的不记得怎么写。
option = soup.findAll('option')
print option.string
你这个用BS还是很好的选择，之时在打印的时候选择.string就可以了。
例如：
soup = BeautifulSoup(html, from_encoding = 'gbk')
option = soup.findAll('option')
print option.string
1.你要抓取的option等内容，很明显，是标签script内部的内容(content/text）
-》所以没法用BeautifulSoup当做标签(的属性）去抓取
2.想要当做属性处理
一种办法：
在获得你所说的：
<option value="0000049">[0000049]ANNA</option>
后，再去把（用html标签括起来）组合成html，然后再用BeautifulSoup去当做html处理
-> 就可以获得option这个标签了
-> 就可以获得option的string了
3.当然，对于你这样的情况，相对来说，用（你已经用了的）正则，比用bs，效率更高。
4.关于beautifulSoup，可参考：
Python专题教程：BeautifulSoup详解

编橙之家文章，

热门文章：

请问Beautifulsoup抓取select标签中option文本方法是什么，,我要抓取的页面的内容是在

请问Beautifulsoup抓取select标签中option文本方法是什么，,我要抓取的页面的内容是在

相关内容

最新python问答

python~HOT