如何用正则表达式高效提取HTML标签中的文本？

425 2025-04-08

利用正则表达式快速提取HTML标签中的文本内容

HTML文档中，文本通常嵌套在各种标签内。如果我们需要提取文本内容并去除标签，正则表达式提供了一种高效的解决方案。

巧妙去除HTML标签，获取纯文本

以下正则表达式可以有效地完成这项任务：

str.replace(/<[^<>]+>/g, '')

表达式详解：

<: 匹配左尖括号<
[^<>]+: 匹配一个或多个非尖括号字符（即标签内容）
>: 匹配右尖括号>
g: 全局匹配，确保所有标签都被替换

通过这个正则表达式，我们可以将HTML标签从字符串中移除，只留下纯文本内容。

代码示例

以下代码片段演示了如何使用该正则表达式提取HTML标签内的文本：

function extractText(htmlString) {
  return htmlString.replace(/<[^<>]+>/g, '');
}

let html = 'hello world!
 youyou!';
let text = extractText(html);
console.log(text); // 输出：hello world! youyou!

这个函数extractText接收HTML字符串作为输入，并返回只包含文本内容的字符串。

来源：1740244667

上一篇　如何在PyQt已设置的UI窗口中使用QPainter绘图？下一篇　Go语言time包Timer的StartTimer函数是如何实现定时器启动的？

本类最新

查看更多

如何用正则表达式高效提取HTML标签中的文本？

本类最新

热门推荐

热门教程