สร้างอาร์เรย์ของการจับคู่ regex


160

ใน Java ฉันพยายามคืนค่าการจับคู่ regex ทั้งหมดไปยังอาร์เรย์ แต่ดูเหมือนว่าคุณสามารถตรวจสอบได้ว่ารูปแบบนั้นตรงกับบางสิ่งหรือไม่ (บูลีน)

ฉันจะใช้การจับคู่ regex ในรูปแบบอาร์เรย์ของสตริงทั้งหมดที่ตรงกับการแสดงออกของ regex ในสตริงที่กำหนดได้อย่างไร


2
คำถามที่ดี. ข้อมูลที่คุณค้นหาควรเป็นส่วนหนึ่งของเอกสาร Java ใน Regex และ Matcher น่าเศร้าที่มันไม่ใช่
Cheeso

3
ความอัปยศจริง ฟังก์ชั่นนี้ดูเหมือนจะมีอยู่นอกกรอบในเกือบทุกภาษาอื่น ๆ (ที่มีการสนับสนุนการแสดงออกปกติ)
Ray Toal

คำตอบ:


278

( คำตอบของ 4castleดีกว่าด้านล่างหากคุณสามารถสมมติว่า Java> = 9)

คุณต้องสร้าง matcher และใช้สิ่งนั้นเพื่อค้นหาการแข่งขันซ้ำ ๆ

 import java.util.regex.Matcher;
 import java.util.regex.Pattern;

 ...

 List<String> allMatches = new ArrayList<String>();
 Matcher m = Pattern.compile("your regular expression here")
     .matcher(yourStringHere);
 while (m.find()) {
   allMatches.add(m.group());
 }

หลังจากนี้allMatchesมีการแข่งขันและคุณสามารถใช้allMatches.toArray(new String[0])เพื่อรับอาร์เรย์ถ้าคุณต้องการจริงๆ


คุณยังสามารถใช้MatchResultเพื่อเขียนฟังก์ชันตัวช่วยเพื่อวนซ้ำการจับคู่ตั้งแต่Matcher.toMatchResult()คืนสแน็ปช็อตของสถานะกลุ่มปัจจุบัน

ตัวอย่างเช่นคุณสามารถเขียนตัววนซ้ำขี้เกียจเพื่อให้คุณทำ

for (MatchResult match : allMatches(pattern, input)) {
  // Use match, and maybe break without doing the work to find all possible matches.
}

โดยทำสิ่งนี้:

public static Iterable<MatchResult> allMatches(
      final Pattern p, final CharSequence input) {
  return new Iterable<MatchResult>() {
    public Iterator<MatchResult> iterator() {
      return new Iterator<MatchResult>() {
        // Use a matcher internally.
        final Matcher matcher = p.matcher(input);
        // Keep a match around that supports any interleaving of hasNext/next calls.
        MatchResult pending;

        public boolean hasNext() {
          // Lazily fill pending, and avoid calling find() multiple times if the
          // clients call hasNext() repeatedly before sampling via next().
          if (pending == null && matcher.find()) {
            pending = matcher.toMatchResult();
          }
          return pending != null;
        }

        public MatchResult next() {
          // Fill pending if necessary (as when clients call next() without
          // checking hasNext()), throw if not possible.
          if (!hasNext()) { throw new NoSuchElementException(); }
          // Consume pending so next call to hasNext() does a find().
          MatchResult next = pending;
          pending = null;
          return next;
        }

        /** Required to satisfy the interface, but unsupported. */
        public void remove() { throw new UnsupportedOperationException(); }
      };
    }
  };
}

ด้วยสิ่งนี้,

for (MatchResult match : allMatches(Pattern.compile("[abc]"), "abracadabra")) {
  System.out.println(match.group() + " at " + match.start());
}

อัตราผลตอบแทน

a at 0
b at 1
a at 3
c at 4
a at 5
a at 7
b at 8
a at 10

4
ฉันจะไม่แนะนำให้ใช้ ArrayList ที่นี่เนื่องจากคุณไม่ทราบขนาดล่วงหน้าและอาจต้องการหลีกเลี่ยงการปรับขนาดบัฟเฟอร์ ฉันต้องการใช้ LinkedList แทน - แม้ว่าจะเป็นเพียงข้อเสนอแนะและไม่ทำให้คำตอบของคุณถูกต้อง แต่อย่างใด
Liv

13
@Liv ใช้เวลาในการเปรียบเทียบทั้งสองArrayListและLinkedListผลลัพธ์อาจน่าประหลาดใจ
Anthony Accioly

ฉันได้ยินสิ่งที่คุณกำลังพูดและฉันทราบถึงความเร็วในการประมวลผลและ footprint หน่วยความจำในทั้งสองกรณีปัญหาของ ArrayList คือตัวสร้างเริ่มต้นสร้างความจุ 10 - ถ้าคุณผ่านขนาดนั้นด้วยการโทรเพื่อเพิ่ม ( ) คุณจะต้องแบกรับการจัดสรรหน่วยความจำและคัดลอกอาร์เรย์ - และที่อาจเกิดขึ้นไม่กี่ครั้ง จริงอยู่ถ้าคุณคาดหวังว่าจะมีการแข่งขันเพียงไม่กี่วิธีการของคุณจะมีประสิทธิภาพมากขึ้น หากอย่างไรก็ตามคุณพบว่าอาร์เรย์ "การปรับขนาด" นั้นเกิดขึ้นมากกว่าหนึ่งครั้งฉันจะแนะนำ LinkedList ให้มากขึ้นดังนั้นหากคุณกำลังจัดการกับแอพ latency ต่ำ
Liv

12
@Liv หากรูปแบบของคุณมีแนวโน้มที่จะสร้างการแข่งขันที่มีขนาดที่สามารถคาดการณ์ได้ค่อนข้างมากและขึ้นอยู่กับว่ารูปแบบนั้นตรงกับความเบาบางหรือหนาแน่น (ขึ้นอยู่กับผลรวมของความยาวของallMatchesvs yourStringHere.length()) คุณสามารถคำนวณขนาดที่เหมาะสมallMatchesได้ ในประสบการณ์ของฉันค่าใช้จ่ายของLinkedListหน่วยความจำและประสิทธิภาพการทำซ้ำที่ชาญฉลาดมักจะไม่คุ้มค่าดังนั้นจึงLinkedListไม่ใช่ท่าทางเริ่มต้นของฉัน แต่เมื่อทำการปรับฮอตสปอตให้เหมาะสมการเปลี่ยนการใช้งานลิสต์รายชื่อนั้นคุ้มค่าแน่นอนเพื่อดูว่าคุณได้รับการปรับปรุงหรือไม่
Mike Samuel

1
ใน Java 9 ตอนนี้คุณสามารถใช้Matcher#resultsเพื่อรับสิ่งStreamที่คุณสามารถใช้เพื่อสร้างอาร์เรย์ (ดูคำตอบของฉัน )
4castle

56

ใน Java 9 ตอนนี้คุณสามารถใช้Matcher#results()เพื่อรับสิ่งStream<MatchResult>ที่คุณสามารถใช้เพื่อรับรายการ / อาร์เรย์ของการแข่งขัน

import java.util.regex.Pattern;
import java.util.regex.MatchResult;
String[] matches = Pattern.compile("your regex here")
                          .matcher("string to search from here")
                          .results()
                          .map(MatchResult::group)
                          .toArray(String[]::new);
                    // or .collect(Collectors.toList())

1
วิธีนี้ไม่มีผลลัพธ์ () โปรดใช้วิธีนี้ก่อน
Bravo

14
@Bravo คุณใช้ Java 9 หรือไม่ มันมีอยู่จริง ฉันเชื่อมโยงกับเอกสาร
4castle

: ((มีทางเลือกอื่นสำหรับ java 8
logbasex

25

Java ทำให้ regex ซับซ้อนเกินไปและไม่เป็นไปตามรูปแบบของ perl ลองดูที่MentaRegexเพื่อดูว่าคุณจะทำได้อย่างไรในโค้ด Java บรรทัดเดียว:

String[] matches = match("aa11bb22", "/(\\d+)/g" ); // => ["11", "22"]

6
มันเท่ห์มาก เครื่องหมายทับสองยังคงดูน่าเกลียด แต่ฉันเดาว่าไม่มีภูมิประเทศจากนั้น
JohnPristine

mentaregex-0.9.5.jar, 6Kb ที่ช่วยชีวิตฉัน Obrigado Sérgio!
CONVID19

2
ความสนใจ! ทางออกที่ดีที่สุด ใช้มัน!
Vlad Holubiev

14
ไซต์ MentaRegex หยุดทำงานหรือไม่ เมื่อฉันไปที่mentaregex.soliveirajr.comจะพูดว่า "สวัสดี" เท่านั้น
user64141

1
@ user64141 ดูเหมือนว่ามันเป็น
Amit Gold

11

นี่คือตัวอย่างง่ายๆ:

Pattern pattern = Pattern.compile(regexPattern);
List<String> list = new ArrayList<String>();
Matcher m = pattern.matcher(input);
while (m.find()) {
    list.add(m.group());
}

(หากคุณมีกลุ่มที่จับภาพได้มากขึ้นคุณสามารถอ้างถึงพวกเขาโดยใช้ดัชนีของพวกเขาเป็นอาร์กิวเมนต์ของวิธีการกลุ่มหากคุณต้องการอาร์เรย์ให้ใช้list.toArray())


pattern.matches (อินพุต) ไม่ทำงาน คุณต้องผ่านรูปแบบ regex ของคุณ (อีกครั้ง!) -> WTF Java ?! pattern.matches (String regex, อินพุตสตริง); คุณหมายถึง pattern.matcher (อินพุต) หรือไม่
El Mac

@ElMac Pattern.matches()เป็นวิธีการคงที่คุณไม่ควรเรียกมันในPatternอินสแตนซ์ เป็นเพียงชื่อย่อสำหรับPattern.matches(regex, input) Pattern.compile(regex).matcher(input).matches()
dimo414

5

จากเส้นทาง Java Regex อย่างเป็นทางการ :

        Pattern pattern = 
        Pattern.compile(console.readLine("%nEnter your regex: "));

        Matcher matcher = 
        pattern.matcher(console.readLine("Enter input string to search: "));

        boolean found = false;
        while (matcher.find()) {
            console.format("I found the text \"%s\" starting at " +
               "index %d and ending at index %d.%n",
                matcher.group(), matcher.start(), matcher.end());
            found = true;
        }

ใช้findและแทรกผลลัพธ์groupในอาร์เรย์ / รายการ / อะไรก็ตาม


0
        Set<String> keyList = new HashSet();
        Pattern regex = Pattern.compile("#\\{(.*?)\\}");
        Matcher matcher = regex.matcher("Content goes here");
        while(matcher.find()) {
            keyList.add(matcher.group(1)); 
        }
        return keyList;
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.