首页 > 文章列表 > 如何使用正则表达式准确解析HTML文本中的a标签href地址?

如何使用正则表达式准确解析HTML文本中的a标签href地址?

475 2025-01-12

如何使用正则表达式准确解析HTML文本中的a标签href地址?

JS如何使用正则表达式解析html文本

问题:

想要使用正则表达式解析html文本,并获取其中每个a标签的href地址,应该如何书写正则表达式?

尝试:

const r1 = s.match(/活动开展情况[sS]*</ul>/g)[0]
const r2 = r1.match(/(?<=href=").*?(?=")/g)

错误:

上述代码会匹配到不想要的#、javascript:void(0)等内容,无法准确获取想要的结果。

解决方案:

由于自己写正则容易误配,建议使用html解析器来进行解析,更加安全稳妥。例如,可以使用jquery中的$(html).find('>li>a')来查找所有a标签,然后使用map方法获取它们的href地址:

使用jquery:

$(html).find('>li>a').map((_, a) => $(a).attr('href'))

使用ES6:

[...$(html).find('>li>a')].map(a => $(a).attr('href'))

输出:

[
    "/eduadmin/SpecialInfo/SpecialInfo?AreaID=533167224&AreaType=1&SpecialCode=3",
    "/eduadmin/SpecialInfo/SpecialInfo?AreaID=533167224&AreaType=1&SpecialCode=4",
    "/eduadmin/SpecialInfo/SpecialInfo?AreaID=533167224&AreaType=1&SpecialCode=6",
    "/eduadmin/SpecialInfo/SpecialInfo?AreaID=533167224&AreaType=1&SpecialCode=9",
    "/eduadmin/DevelopActivity/SystemActivityManage/2/-1"
]
来源:1730164572