当前位置: 首页 > Java > 正文

java使用正则表达式去除字符串的html标签

关键字:
1 星2 星3 星4 星5 星 (暂无评分)
Loading ... Loading ...
baidu_share

新闻内容或者博客文章,如果显示摘要,需要去除内容的html格式标签,找到一个正则表达式,实现了:

/** 
     * 删除input字符串中的html格式 
     *  
     * @param input 
     * @param length 
     * @return 
     */  
    public static String splitAndFilterString(String input) {  
        if (input == null || input.trim().equals("")) {  
            return "";  
        }  
        // 去掉所有html元素,  
        String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(  
                "<[^>]*>", "").replaceAll("[(/>)<]", "");  
        return str;  
    }

过滤掉所有script脚本的正则:

content.replaceAll("<script[^>]*?>[\\s\\S]*?<\\/script>", "")

过滤掉所有style的正则:

content.replaceAll("<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>", "");

过滤掉所有html标签,保留p和br标签。

content.replaceAll("</?(?!br|/?p)[^>]*>", "");

过滤掉所有html标签,保留p标签。

content.replaceAll("</?(?!/?p)[^>]*>", "");

本文固定链接: http://www.chepoo.com/java-regex-html.html | IT技术精华网

java使用正则表达式去除字符串的html标签:等您坐沙发呢!

发表评论