博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3用BeautifulSoup用re.compile来匹配需要抓取的href地址
阅读量:6424 次
发布时间:2019-06-23

本文共 711 字,大约阅读时间需要 2 分钟。

# -*- coding:utf-8 -*-#python 2.7#XiaoDeng#http://tieba.baidu.com/p/2460150866#标签操作from bs4 import BeautifulSoupimport urllib.requestimport re#如果是网址,可以用这个办法来读取网页#html_doc = "http://tieba.baidu.com/p/2460150866"#req = urllib.request.Request(html_doc)  #webpage = urllib.request.urlopen(req)  #html = webpage.read()html="""The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were

,Lacie andTillie;Lacieand they lived at the bottom of a well.

...

"""soup = BeautifulSoup(html, 'html.parser') #文档对象#re.compile来匹配需要抓取的href地址for k in soup.find_all(href=re.compile("lacie")): print(k)for k in soup.find_all(string=re.compile("Lacie")): print(k)

 

转载地址:http://zarra.baihongyu.com/

你可能感兴趣的文章
ABP Zero 本地化语言的初始化和扩展
查看>>
转Hibernate 一对多关联的CRUD__@ManyToOne(cascade=(CascadeType.ALL))
查看>>
FCT需求分析
查看>>
开门人和关门人(杭电1234)
查看>>
万能adapter
查看>>
开发指南专题六:JEECG微云高速开发平台代码生成
查看>>
cocos2d-x 游戏优化方案
查看>>
1.3 Quick Start中 Step 6: Setting up a multi-broker cluster官网剖析(博主推荐)
查看>>
remote desktop connection manager
查看>>
开源库RxJava、ButterKnife
查看>>
JDK内置工具jstack(Java Stack Trace)(转)
查看>>
百度之星 / 初赛第二场 B题
查看>>
Http压测工具wrk使用指南
查看>>
Excel VBA 循环“我中毒了~”
查看>>
CSS 教程Part4 [盒子模型](摘录自 W3C School)
查看>>
android开发技巧
查看>>
五个有趣的拓扑变换问题 [转]
查看>>
asp.net中的比较完美的验证码
查看>>
HDU 3277 Marriage Match III(最大流+二分+并查集)
查看>>
FPSMeter – 简单的、可定制主题的 FPS 仪表库
查看>>