ลบแท็ก HTML จากสตริง


422

มีวิธีที่ดีในการลบ HTML ออกจากสตริง Java หรือไม่ regex ง่าย ๆ เช่น

 replaceAll("\\<.*?>","") 

จะทำงานได้ แต่สิ่งต่าง ๆ เช่น&amp;เคยถูกแปลงอย่างถูกต้องและไม่ใช่ HTML ระหว่างวงเล็บสองมุมจะถูกลบออก (เช่น.*?ใน regex จะหายไป)


2
ใช้สิ่งนี้พร้อมกับคำแนะนำต่อไปนี้: compile 'org.jsoup: jsoup: 1.9.2'
VahidHoseini


ดูเพิ่มเติมที่: stackoverflow.com/a/21838532/363573
Stephan

คำตอบ:


572

ใช้ parser HTML แทน regex นี้เป็นเรื่องง่ายที่ตายแล้วด้วยJsoup

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup ยังสนับสนุนการลบแท็กกับรายการที่อนุญาตปรับแต่งซึ่งจะเป็นประโยชน์มากถ้าคุณต้องการที่จะอนุญาตให้เฉพาะเช่น<b>, และ<i><u>

ดูสิ่งนี้ด้วย:


18
Jsoup เป็นคนดี แต่ฉันก็พบข้อเสียด้วย ฉันใช้มันเพื่อกำจัด XSS ดังนั้นโดยทั่วไปฉันคาดหวังว่าจะได้รับข้อความธรรมดา แต่บุคคลที่ชั่วร้ายบางคนสามารถลองส่ง HTML บางอย่างให้ฉันได้ ใช้ Jsoup ฉันสามารถลบ HTML ทั้งหมด แต่น่าเสียดายที่มันลดขนาดช่องว่างให้เหลือหนึ่งช่องและลบตัวแบ่งลิงก์ (\ n อักขระ)
Ridcully

7
@Ridcully: สำหรับสิ่งที่คุณต้องการใช้Jsoup#clean()แทน
BalusC

3
การใช้ clean () จะทำให้ช่องว่างเพิ่มเติมและ \ n ตัวอักษรถูกลบ เช่น Jsoup.clean ("a \ n b", Whitelist.none ()) ส่งคืน "a b"
Keith

20
@Zeroows: <p>Lorem ipsum 1 < 3 dolor sit amet</p>นี้ล้มเหลวอย่างน่าสังเวชบน อีกครั้งHTML ไม่ได้เป็นภาษาปกติ มันเกินกว่าฉันอย่างสิ้นเชิงว่าทำไมทุกคนพยายามโยน regex ลงไปเพื่อแยกส่วนที่น่าสนใจแทนที่จะใช้ parser จริง
BalusC

4
ใช้Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));เพื่อรักษา linebreaks
Marc Johnen

275

หากคุณกำลังเขียนสำหรับAndroidคุณสามารถทำได้ ...

android.text.Html.fromHtml(instruction).toString()

12
เคล็ดลับที่ยอดเยี่ยม :) หากคุณแสดงข้อความใน TextView คุณสามารถปล่อย. toString () เพื่อคงรูปแบบไว้ได้เช่นกัน
Lorne Laliberte

1
@ Branky ฉันไม่ได้ลอง ... คำตอบที่ได้รับการยอมรับเช่นเสน่ห์
Maverick

ใช้งานได้ดี แท็ก html ทั้งหมดถูกลบออกจาก String
user3144836

1
สิ่งนี้ดี แต่แท็ก <img> ถูกแทนที่ด้วยสิ่งแปลกประหลาดบางอย่าง ฉันได้สี่เหลี่ยมเล็ก ๆ ที่มีรูป
Bibaswann Bandyopadhyay

1
@BibaswannBandyopadhyay อีกคำตอบช่วยกำจัดตัวละครเหล่านี้
Vince

84

หากผู้ใช้เข้าสู่ระบบ<b>hey!</b>คุณต้องการแสดง<b>hey!</b>หรือhey!ไม่? หากสิ่งแรกให้หลีกเลี่ยงแอมป์แซนด์น้อยกว่าและเข้ารหัส HTML (และใส่เครื่องหมายคำพูด) และคุณก็ไม่เป็นไร การแก้ไขโค้ดของคุณเพื่อใช้งานตัวเลือกที่สองคือ:

replaceAll("\\<[^>]*>","")

<bhey!</b>แต่คุณจะทำงานเป็นปัญหาหากผู้ใช้เข้าสู่บางสิ่งบางอย่างผิดรูปแบบเช่น

นอกจากนี้คุณยังสามารถตรวจสอบJTidyซึ่งจะแยกวิเคราะห์อินพุต html "สกปรก" และควรให้วิธีการลบแท็กและรักษาข้อความ

ปัญหาในการพยายามตัด html คือเบราว์เซอร์มีตัวแยกวิเคราะห์ที่ผ่อนปรนมากผ่อนปรนมากกว่าไลบรารีใด ๆ ที่คุณสามารถหาได้ดังนั้นแม้ว่าคุณจะพยายามอย่างเต็มที่ที่จะดึงแท็กทั้งหมด (โดยใช้วิธีแทนที่ด้านบน, ไลบรารี DOM หรือ JTidy) คุณจะยังคงต้องให้แน่ใจว่าการเข้ารหัสตัวอักษร HTML พิเศษใด ๆ ที่เหลือเพื่อให้ปลอดภัยส่งออกของคุณ


1
นอกจากนี้คุณยังพบกับปัญหาหากมีการลงชื่อเข้าใช้ <หรือ> ที่ไม่มีสัญลักษณ์ภายในเนื้อหาโหนด html <span> อายุของฉันคือ <ข้อความจำนวนมาก> และอายุของคุณ </span> ฉันคิดว่าวิธีการทำเช่นนี้เพียง 100% คือผ่านอินเทอร์เฟซ XML DOM (เช่น SAX หรือคล้ายกัน) เพื่อใช้ node.getText ()
Mitja Gustin

29

อีกวิธีหนึ่งคือการใช้ javax.swing.text.html.HTMLEditorKitเพื่อแยกข้อความ

import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

ref: ลบแท็ก HTML ออกจากไฟล์เพื่อดึงเฉพาะ TEXT


5
ผลลัพธ์ของ "a <b หรือ b> c" คือ "ab หรือ b> c" ซึ่งดูเหมือนว่าโชคร้าย
dfrankow

1
สิ่งนี้ทำงานได้ดีที่สุดสำหรับฉัน ฉันต้องการรักษาเส้นแบ่ง ฉันได้โดยการเพิ่มวิธีง่ายๆใน parser: @Override โมฆะสาธารณะ handleStartTag (HTML.Tag t, MutableAttributeSet a, int POS) {ถ้า (t == HTML.Tag.P || t == HTML.Tag.BR) {s.append ('\ n'); }}
MiguelMunoz

1
dfrankow: นิพจน์ทางคณิตศาสตร์ a <b หรือ b> c ควรเขียนด้วย html เช่นนี้: a & lt; b หรือ b & gt; c
MiguelMunoz

24

ฉันคิดว่าวิธีที่ง่ายที่สุดในการกรองแท็ก html คือ:

private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");

public static String removeTags(String string) {
    if (string == null || string.length() == 0) {
        return string;
    }

    Matcher m = REMOVE_TAGS.matcher(string);
    return m.replaceAll("");
}

18

นอกจากนี้ยังใช้งานง่ายมากโดยใช้Jerichoและคุณสามารถคงรูปแบบบางอย่างไว้ (ตัวอย่างเช่นตัวแบ่งบรรทัดและลิงก์)

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());

4
Jericho สามารถแยกวิเคราะห์ <br> เพื่อแบ่งบรรทัด Jsoup และ HTMLEditorKit ไม่สามารถทำได้
homaxto

เจริโคมีความสามารถในการทำงานนี้ใช้มันอย่างมากในโครงการที่เป็นเจ้าของ
Jerry Tian

3
เจริโคทำงานเหมือนมีเสน่ห์ ขอบคุณสำหรับคำแนะนำ One note: คุณไม่จำเป็นต้องสร้างเซ็กเมนต์ของสตริงทั้งหมด แหล่งที่มาขยายเซ็กเมนต์ดังนั้นจึงสามารถใช้งานได้ในตัวสร้าง Renderer
MrPlow

ตอนนี้ Jerico ดูเหมือนจะเก่าไปหน่อย (รุ่นล่าสุดคือ 3.4 ในปลายปี 2015) อย่างไรก็ตามหากยังใช้งานได้ดีแสดงว่ายังใช้งานได้ดี!
Jonathan Hult

17

คำตอบที่ได้รับการยอมรับในการทำJsoup.parse(html).text()มีเพียง2 ประเด็นที่เป็นไปได้ (ด้วย JSoup 1.7.3):

  • มันลบตัวแบ่งบรรทัดจากข้อความ
  • มันแปลงข้อความ&lt;script&gt;เป็น<script>

ถ้าคุณใช้สิ่งนี้เพื่อป้องกัน XSS มันน่ารำคาญนิดหน่อย นี่คือภาพที่ดีที่สุดของฉันในโซลูชันที่ได้รับการปรับปรุงโดยใช้ทั้ง JSoup และ Apache StringEscapeUtils:

// breaks multi-level of escaping, preventing &amp;lt;script&amp;gt; to be rendered as <script>
String replace = input.replace("&amp;", "");
// decode any encoded html, preventing &lt;script&gt; to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);

โปรดทราบว่าขั้นตอนสุดท้ายเป็นเพราะฉันต้องใช้ผลลัพธ์เป็นข้อความธรรมดา หากคุณต้องการเฉพาะเอาต์พุต HTML คุณควรจะสามารถลบออกได้

และนี่คือกรณีทดสอบจำนวนมาก (อินพุตไปยังเอาต์พุต):

{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"&lt;script&gt;", ""},
{"&amp;lt;script&amp;gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}

หากคุณพบวิธีที่จะทำให้ดีขึ้นโปรดแจ้งให้เราทราบ


2
&#38;lt;script&#38;gt;alert('Evil script executed');&#38;lt;/script&#38;gt;นี้จะล้มเหลวกับสิ่งที่ชอบ &#x26;เดียวกันจะไปสำหรับ JSoup ไม่ได้แปลง&lt;script&gt; into <script>เพราะคุณโทรStringEscapeUtils.unescapeHtmlหลังจาก JSoup ล้างอินพุต
Guillaume Polet

15

บน Android ลอง:

String result = Html.fromHtml(html).toString();

มันทำได้! มันออก HTML แบบอินไลน์ทั้งหมดจากข้อความ :)
DritanX

1
คุณมักจะใช้ข้อมูลโค้ดสำหรับรหัสปกติ ควรจะใช้โค้ดขนาดสั้นสำหรับ HTML หรือ javascript หรือรหัสอื่นเท่านั้นที่สามารถเรียกใช้ในเบราว์เซอร์ได้ คุณไม่สามารถเรียกใช้ Java ในเบราว์เซอร์ ใช้บล็อคโค้ดปกติในอนาคต ... ฉันจะแก้ไขคำตอบของคุณในครั้งนี้และแก้ไขการจัดรูปแบบ ฯลฯ แต่โปรดอย่าทำเช่นนี้อีกในอนาคต นี่ไม่ใช่ครั้งแรกที่ฉันบอกคุณเกี่ยวกับเรื่องนี้ ...
Xaver Kapeller

1
@PaulCroarkin นี้เป็นห้องสมุดใน android sdk android.text.Html
Ameen Maheen

1
น่ากลัว ลบแท็ก html ทั้งหมด
user3144836

2
ดูคุ้นเคยเหมือนคำตอบของฉันจากปี 2011
Ken Goodridge

11

การหลบหนี HTML นั้นยากที่จะทำจริง - ฉันขอแนะนำให้ใช้รหัสห้องสมุดในการทำเช่นนี้เพราะมันละเอียดกว่าที่คุณคิด ลองใช้StringEscapeUtilsของ Apache เพื่อดูไลบรารีที่ดีสำหรับการจัดการสิ่งนี้ใน Java


นี่คือสิ่งที่ฉันกำลังมองหา แต่ฉันต้องการที่จะตัด HTML แทนที่จะหลบหนี
Mason

คุณต้องการที่จะตัด html หรือคุณต้องการที่จะแปลงเป็นข้อความธรรมดา? การแยก HTML ออกจากสตริงที่ยาวพร้อมด้วยแท็ก br และเอนทิตี HTML อาจทำให้เกิดความผิดพลาดที่อ่านไม่ออก
Tim Howland

4
StringEscapeUtils.unescapeHtml ไม่ได้ตัด html
Erin Drummond

5
ข้อมูลที่ดีเกี่ยวกับประโยชน์ที่จะใช้สำหรับการหลีกเลี่ยง แต่ไม่ตอบคำถาม
อเล็กซ์

3
คำตอบที่สับสน กำลังลบ! = Unescaping
Lluis Martinez

7

สิ่งนี้น่าจะใช้ได้ -

ใช้สิ่งนี้

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

และนี่

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

1
โดยทั่วไปแล้วคำตอบมีประโยชน์มากขึ้นหากพวกเขามีคำอธิบายเกี่ยวกับสิ่งที่รหัสตั้งใจจะทำ
ปีเตอร์

6

คุณอาจต้องการแทนที่<br/>และ</p>แท็กด้วยการขึ้นบรรทัดใหม่ก่อนที่จะแยก HTML เพื่อป้องกันไม่ให้มันกลายเป็นระเบียบที่อ่านไม่ออกอย่างที่ Tim แนะนำ

วิธีเดียวที่ฉันสามารถคิดของการลบแท็ก HTML แต่ออกไม่ใช่ HTML ระหว่างวงเล็บมุมจะตรวจสอบกับรายชื่อของแท็ก HTML บางสิ่งบางอย่างตามสายเหล่านี้ ...

replaceAll("\\<[\s]*tag[^>]*>","")

แล้วตัวอักษรแบบ HTML &amp;ถอดรหัสพิเศษเช่น ไม่ควรพิจารณาผลลัพธ์ที่จะถูกทำให้สะอาด


5

อีกวิธีหนึ่งสามารถใช้HtmlCleaner :

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}

2
HtmlCleaner ทำงานได้ดีเก็บบรรทัดและมีรุ่นล่าสุด (2.21 พฤษภาคม 2017)
Jonathan Hult

4

คำตอบที่ยอมรับไม่ได้ผลสำหรับฉันสำหรับกรณีทดสอบที่ฉันระบุ: ผลลัพธ์ของ "a <b หรือ b> c" คือ "ab หรือ b> c"

ดังนั้นฉันใช้ TagSoup แทน นี่เป็นช็อตที่ใช้สำหรับกรณีทดสอบของฉัน (และอีกสองสามอย่าง):

import java.io.IOException;
import java.io.StringReader;
import java.util.logging.Logger;

import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

/**
 * Take HTML and give back the text part while dropping the HTML tags.
 *
 * There is some risk that using TagSoup means we'll permute non-HTML text.
 * However, it seems to work the best so far in test cases.
 *
 * @author dan
 * @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a> 
 */
public class Html2Text2 implements ContentHandler {
private StringBuffer sb;

public Html2Text2() {
}

public void parse(String str) throws IOException, SAXException {
    XMLReader reader = new Parser();
    reader.setContentHandler(this);
    sb = new StringBuffer();
    reader.parse(new InputSource(new StringReader(str)));
}

public String getText() {
    return sb.toString();
}

@Override
public void characters(char[] ch, int start, int length)
    throws SAXException {
    for (int idx = 0; idx < length; idx++) {
    sb.append(ch[idx+start]);
    }
}

@Override
public void ignorableWhitespace(char[] ch, int start, int length)
    throws SAXException {
    sb.append(ch);
}

// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException {
}

@Override
public void endElement(String uri, String localName, String qName)
    throws SAXException {
}

@Override
public void endPrefixMapping(String prefix) throws SAXException {
}


@Override
public void processingInstruction(String target, String data)
    throws SAXException {
}

@Override
public void setDocumentLocator(Locator locator) {
}

@Override
public void skippedEntity(String name) throws SAXException {
}

@Override
public void startDocument() throws SAXException {
}

@Override
public void startElement(String uri, String localName, String qName,
    Attributes atts) throws SAXException {
}

@Override
public void startPrefixMapping(String prefix, String uri)
    throws SAXException {
}
}

4

ฉันรู้ว่านี่เก่า แต่ฉันเพิ่งทำงานในโครงการที่ต้องการให้ฉันกรอง HTML และใช้งานได้ดี:

noHTMLString.replaceAll("\\&.*?\\;", "");

แทนสิ่งนี้:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");

4

นี่คือการอัปเดตที่มีเนื้อสัมผัสที่เบากว่าเพื่อพยายามจัดการการจัดรูปแบบบางอย่างสำหรับตัวแบ่งและรายการ ฉันใช้ผลลัพธ์ของ Amaya เป็นแนวทาง

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
    private static final Logger log = Logger
            .getLogger(Logger.GLOBAL_LOGGER_NAME);

    private StringBuffer stringBuffer;

    private Stack<IndexType> indentStack;

    public static class IndexType {
        public String type;
        public int counter; // used for ordered lists

        public IndexType(String type) {
            this.type = type;
            counter = 0;
        }
    }

    public HTML2Text() {
        stringBuffer = new StringBuffer();
        indentStack = new Stack<IndexType>();
    }

    public static String convert(String html) {
        HTML2Text parser = new HTML2Text();
        Reader in = new StringReader(html);
        try {
            // the HTML to convert
            parser.parse(in);
        } catch (Exception e) {
            log.severe(e.getMessage());
        } finally {
            try {
                in.close();
            } catch (IOException ioe) {
                // this should never happen
            }
        }
        return parser.getText();
    }

    public void parse(Reader in) throws IOException {
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("StartTag:" + t.toString());
        if (t.toString().equals("p")) {
            if (stringBuffer.length() > 0
                    && !stringBuffer.substring(stringBuffer.length() - 1)
                            .equals("\n")) {
                newLine();
            }
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.push(new IndexType("ol"));
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.push(new IndexType("ul"));
            newLine();
        } else if (t.toString().equals("li")) {
            IndexType parent = indentStack.peek();
            if (parent.type.equals("ol")) {
                String numberString = "" + (++parent.counter) + ".";
                stringBuffer.append(numberString);
                for (int i = 0; i < (4 - numberString.length()); i++) {
                    stringBuffer.append(" ");
                }
            } else {
                stringBuffer.append("*   ");
            }
            indentStack.push(new IndexType("li"));
        } else if (t.toString().equals("dl")) {
            newLine();
        } else if (t.toString().equals("dt")) {
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.push(new IndexType("dd"));
            newLine();
        }
    }

    private void newLine() {
        stringBuffer.append("\n");
        for (int i = 0; i < indentStack.size(); i++) {
            stringBuffer.append("    ");
        }
    }

    public void handleEndTag(HTML.Tag t, int pos) {
        log.info("EndTag:" + t.toString());
        if (t.toString().equals("p")) {
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("li")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.pop();
            ;
        }
    }

    public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("SimpleTag:" + t.toString());
        if (t.toString().equals("br")) {
            newLine();
        }
    }

    public void handleText(char[] text, int pos) {
        log.info("Text:" + new String(text));
        stringBuffer.append(text);
    }

    public String getText() {
        return stringBuffer.toString();
    }

    public static void main(String args[]) {
        String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol>  <li>This</li>  <li>is</li>  <li>an</li>  <li>ordered</li>  <li>list    <p>with</p>    <ul>      <li>another</li>      <li>list        <dl>          <dt>This</dt>          <dt>is</dt>            <dd>sdasd</dd>            <dd>sdasda</dd>            <dd>asda              <p>aasdas</p>            </dd>            <dd>sdada</dd>          <dt>fsdfsdfsd</dt>        </dl>        <dl>          <dt>vbcvcvbcvb</dt>          <dt>cvbcvbc</dt>            <dd>vbcbcvbcvb</dd>          <dt>cvbcv</dt>          <dt></dt>        </dl>        <dl>          <dt></dt>        </dl></li>      <li>cool</li>    </ul>    <p>stuff</p>  </li>  <li>cool</li></ol><p></p></body></html>";
        System.out.println(convert(html));
    }
}

4

ใช้ Html.fromHtml

แท็ก HTMLคือ

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

เป็นต่อของ Android เอกสารอย่างเป็นทางการแท็กใด ๆ ในHTMLจะแสดงเป็นแทนทั่วไปStringซึ่งโปรแกรมของคุณก็จะสามารถผ่านไปและแทนที่ด้วยจริงสตริง

Html.formHtmlวิธีการใช้Html.TagHandlerและ Html.ImageGetter เป็นข้อโต้แย้งเช่นเดียวกับข้อความที่จะแยกวิเคราะห์

ตัวอย่าง

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

แล้วก็

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

เอาท์พุต

นี่คือข้อความเกี่ยวกับฉันที่ผู้ใช้สามารถใส่ลงในโปรไฟล์ของพวกเขา


1
ไม่มียูทิลิตี้พิเศษและสอดคล้องกับ Android Docs +1
davidbates

4

นี่คืออีกหนึ่งวิธีการเปลี่ยนทั้งหมด (แท็ก HTML | หน่วยงาน HTML | พื้นที่ว่างในเนื้อหา HTML)

content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", ""); โดยที่เนื้อหาคือ String


1
ฉันปรับปรุงมันเล็กน้อย: {code} .replaceAll ("(<. *?>) | (&. * ?;)", "" ") .replaceAll (" \\ s {2,} "," ") { code} เพราะแท็กเหล่านั้นมักจะติดกับข้อความ และหลังจากลบแท็กให้เปลี่ยนพื้นที่การเขียนทั้งหมด 2 รายการขึ้นไปเหลือเพียง 1
OndřejStašek

4

คุณสามารถใช้ตัวกรอง HTML เริ่มต้นของ Android ได้

    public String htmlToStringFilter(String textToFilter){

    return Html.fromHtml(textToFilter).toString();

    }

วิธีการด้านบนจะส่งคืนสตริงการกรอง HTML สำหรับการป้อนข้อมูลของคุณ


3

อีกวิธีหนึ่งที่สามารถใช้ com.google.gdata.util.common.html.HtmlToText คลาสที่ชอบ

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

นี่ไม่ใช่รหัสพิสูจน์หัวข้อย่อยและเมื่อฉันเรียกใช้ในรายการ wikipedia ฉันได้รับข้อมูลสไตล์ด้วย อย่างไรก็ตามฉันเชื่อว่างานเล็ก ๆ / เรียบง่ายสิ่งนี้จะมีประสิทธิภาพ


3

ดูเหมือนว่าคุณต้องการเปลี่ยนจาก HTML เป็นข้อความธรรมดา
หากเป็นกรณีนี้ให้ดูที่ www.htmlparser.org นี่คือตัวอย่างที่ดึงแท็กทั้งหมดออกจากไฟล์ html ที่พบที่ URL
ทำให้การใช้org.htmlparser.beans.StringBean

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}

2

นี่เป็นอีกวิธีในการทำ:

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}

หรือคุณสามารถพูดได้ว่าถ้า (input.indexOf ("<")> 0 || input.indexOf (">")> 0) return ""; อื่นกลับเข้า;
Hossein Shahdoost

2

ท่านสามารถใช้Apache Tikaเพื่อจุดประสงค์นี้ โดยค่าเริ่มต้นจะรักษาช่องว่างจาก html ที่ปล้นซึ่งอาจต้องการในบางสถานการณ์:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())

1
Parse.parse(InputStream, ContentHandler, Metadata, ParseContext)หมายเหตุว่าวิธีการแจงเลิกในความโปรดปรานของ
Jacob van Lingen

1

วิธีหนึ่งในการเก็บรักษาข้อมูลบรรทัดใหม่ด้วย JSoup คือนำหน้าแท็กบรรทัดใหม่ทั้งหมดด้วยสตริงดัมมี่รัน JSoup และแทนที่สตริงดัมมี่ด้วย "\ n"

String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
    html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");

1
classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim() 

3
ในขณะที่ข้อมูลโค้ดนี้อาจแก้ไขคำถามรวมถึงคำอธิบายช่วยปรับปรุงคุณภาพของโพสต์ของคุณ จำไว้ว่าคุณกำลังตอบคำถามสำหรับผู้อ่านในอนาคตและคนเหล่านั้นอาจไม่ทราบสาเหตุของการแนะนำรหัสของคุณ โปรดอย่าพยายามทำให้รหัสของคุณแน่นเกินไปด้วยคำอธิบายที่อธิบายซึ่งจะช่วยลดความสามารถในการอ่านของทั้งรหัสและคำอธิบาย!
Filnor


0

หากต้องการรับข้อความ HTML แบบธรรมดาที่มีการจัดรูปแบบคุณสามารถทำได้ดังนี้:

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

หากต้องการรับข้อความธรรมดาที่มีการจัดรูปแบบให้เปลี่ยน <br/> โดย \ n และเปลี่ยนบรรทัดสุดท้ายโดย:

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");

0

ฉันรู้ว่าคำถามนี้ได้รับการถามมานานแล้ว แต่ฉันพบวิธีแก้ไขปัญหาอื่นแล้วนี่คือสิ่งที่ใช้ได้กับฉัน:

Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
    Source source= new Source(htmlAsString);
 Matcher m = REMOVE_TAGS.matcher(sourceStep.getTextExtractor().toString());
                        String clearedHtml= m.replaceAll("");

-1

คุณสามารถสร้างวิธีที่มี replaceAll () หลายรายการเช่น

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

ใช้ลิงค์นี้สำหรับการแทนที่ทั่วไปที่คุณต้องการ: http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html

มันง่าย แต่มีประสิทธิภาพ ฉันใช้วิธีนี้ก่อนเพื่อลบขยะ แต่ไม่ใช่บรรทัดแรกนั่นคือ replaceAll ("\ <. *?>", "") และหลังจากนั้นฉันใช้คำหลักเฉพาะเพื่อค้นหาดัชนีแล้วใช้. substring (เริ่มต้นสิ้นสุด ) วิธีการตัดสิ่งที่ไม่จำเป็นออกไป เช่นนี้มีประสิทธิภาพมากขึ้นและคุณสามารถระบุจุดสิ่งที่คุณต้องการในหน้า html ทั้งหมด


4
สองบันทึก อันดับแรกนี่เป็นสิ่งที่ไม่ดีสำหรับการเรียกใช้ replaceAll แต่ละครั้ง Java จะพยายามรวบรวมอาร์กิวเมนต์แรกเป็น regex และเรียกใช้ผ่านสตริงทั้งหมดเพื่อนำ regex นั้นไปใช้กับสตริงโดยประมวลผลสองสามกิโลไบต์ KB สำหรับหน้า HTML ปกติทุกครั้ง ประการที่สองขอแนะนำว่าอย่าใช้ replaceAll เพื่อแทนที่สตริงแบบง่าย ๆ (ไม่ใช่แบบ regex) แต่ควรใช้ replace () แทน () ซึ่งจะแทนที่ทั้งหมดเหมือนชื่อที่แนะนำ)
fwielstra

-1

ลบแท็ก HTML จากสตริง บางที่เราต้องแยกสตริงบางส่วนที่ได้รับจากการตอบสนองบางอย่างเช่น Httpresponse จากเซิร์ฟเวอร์

ดังนั้นเราต้องแยกมัน

ที่นี่ฉันจะแสดงวิธีการลบแท็ก html จากสตริง

    // sample text with tags

    string str = "<html><head>sdfkashf sdf</head><body>sdfasdf</body></html>";



    // regex which match tags

    System.Text.RegularExpressions.Regex rx = new System.Text.RegularExpressions.Regex("<[^>]*>");



    // replace all matches with empty strin

    str = rx.Replace(str, "");



    //now str contains string without html tags

คุณnew System.Text.RegularExpressions.Regex();มาจากไหน
beresfordt

1
@beresfordt การตอบกลับนี้ใช้กับ. NET ไม่ได้มีการร้องขอ Java like ในคำถาม
Erin Drummond
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.