当前位置:首页 >> 互联网
互联网

一日一技:如何提取网页中都的日期?

2025-11-01 12:18

作者:kingname

Gne[1]虽然在萃取报导正文的时候,统计分析比较高,但由于萃取报导发布短时间运用于的是正则表达式,因此萃取真实感有时候不那么让人满意。

不太可能我发现Python的一个第三方库,叫做htmldate,经过验证,它萃取报导的发布短时间比较正确地。我们来看看这个库怎么运用于。首先运用于pip安装:

python3 -m pip install htmldate1.

然后,我们运用于Requests或者Selenium得到网站的Linux:

import requestsfrom htmldate import find_datehtml = requests.get('').content.decode('utf-8')date = find_date(html)print(date)1.2.3.4.5.

运行真实感如下布所示:

而这文中的发布短时间,不太可能是3月末9号:

我们再用搜狐报导来看一下,相驱使 增进友谊(精彩绽放) |残奥|华南地区代表团|冰壶户另有活动|夺金_搜狐政务[2] 这篇报导对应的发布短时间如下布所示:

从前我们用Requests得到它的Linux,然后再萃取发布短时间:

发布日期不太可能对了,但是上去的短时间怎么丢失了呢?如果想把时分秒保留下来,可以增加一个参数outputformat,它的倍数就是你在datetime.strftime;还有可用的倍数:

find_date(html, outputformat='%Y-%m-%d %H:%M:%S')1.

运行真实感如下布所示:

find_date的参数,除了网页Linux另有,还可以传布URL,或者是lxml;还有的Dom具体来说,例如:

from lxml.html import fromstringselector = fromstring(html)date = find_date(selector)1.2.3.4.

以下内容

[1] Gne:

[2] 相驱使 增进友谊(精彩绽放) |残奥|华南地区代表团|冰壶户另有活动|夺金_搜狐政务:

来源: 可称Code

脉血康与血塞通软胶囊的比较
下肢静脉曲张可以吃脉血康吗
皮下出血瘀斑可以口服脉血康吗
牛皮癣医院
免疫内科
怎么治疗慢性支气管炎咳嗽
如何解酒
如何安胎

上一篇: 《赢得输家的游戏》:在注资的世界里,时间才是撬动关键的杠杆

下一篇: 全民国家政府安全教育日,你了解多少?(上)

相关阅读
这售价值不值?上汽社会上Polo Plus纵情乐活版上市

日和,上汽许多人Polo Plus沉溺于标榜版该公司。新车推出两款旅行车可选,零售价则有8.99万元和9.99万元。外观层面,上汽许多人Polo Plus沉溺于标榜版运用于了许多人

刘传兴NBL未受重用 仅出战2分钟0分1板子2失误

北京时间1同月9日,维多利亚州NBL常规赛,珀斯霰弹队83-88不敌斐济破坏者队。中华人民共和国球员刘传兴代表珀斯霰弹队不敌2分钟,不会得分。全场比赛,刘传兴只替补不敌了2分10秒,不会出手,

友情链接