รหัส Javascript เพื่อแยกวิเคราะห์ข้อมูล CSV


217

มีใครบางคนมีความคิดที่ฉันสามารถหารหัสจาวาสคริปต์เพื่อแยกวิเคราะห์ข้อมูล CSV หรือไม่


3
ลองดูคำตอบนี้ที่นี่มันมีคำตอบที่ดี: stackoverflow.com/questions/8493195/ …
Dobes Vandermeer

14
คำตอบส่วนใหญ่ด้านล่างผิดไปจากคำตอบโดย Andy คำตอบใด ๆ ที่ใช้การจับคู่รูปแบบหรือการแยกเป็นวาระที่ล้มเหลว - พวกเขาจะไม่สนับสนุนลำดับหลีกเลี่ยง เพื่อที่คุณจะต้องมีเครื่องสถานะ จำกัด
greg.kindel

3
การแยกไฟล์ CSV ท้องถิ่นด้วย JavaScript และ Papa Parse: joyofdata.de/blog/…
Raffael

4
Papa Parseเป็นอีกตัวเลือกหนึ่งที่มีคุณสมบัติมากมาย (แบบมัลติเธรด, การสนับสนุนแถวส่วนหัว, ตัวตรวจจับการคั่นอัตโนมัติและอื่น ๆ )
Hinrich

1
การลงคะแนนอีกครั้งสำหรับ PapaParse ฉันใช้กับ AngularJS และใช้งานได้ดี
Dmitry Buslaev

คำตอบ:


258

คุณสามารถใช้ฟังก์ชัน CSVToArray () ที่กล่าวถึงในรายการบล็อกนี้

<script type="text/javascript">
    // ref: http://stackoverflow.com/a/1293163/2343
    // This will parse a delimited string into an array of
    // arrays. The default delimiter is the comma, but this
    // can be overriden in the second argument.
    function CSVToArray( strData, strDelimiter ){
        // Check to see if the delimiter is defined. If not,
        // then default to comma.
        strDelimiter = (strDelimiter || ",");

        // Create a regular expression to parse the CSV values.
        var objPattern = new RegExp(
            (
                // Delimiters.
                "(\\" + strDelimiter + "|\\r?\\n|\\r|^)" +

                // Quoted fields.
                "(?:\"([^\"]*(?:\"\"[^\"]*)*)\"|" +

                // Standard fields.
                "([^\"\\" + strDelimiter + "\\r\\n]*))"
            ),
            "gi"
            );


        // Create an array to hold our data. Give the array
        // a default empty first row.
        var arrData = [[]];

        // Create an array to hold our individual pattern
        // matching groups.
        var arrMatches = null;


        // Keep looping over the regular expression matches
        // until we can no longer find a match.
        while (arrMatches = objPattern.exec( strData )){

            // Get the delimiter that was found.
            var strMatchedDelimiter = arrMatches[ 1 ];

            // Check to see if the given delimiter has a length
            // (is not the start of string) and if it matches
            // field delimiter. If id does not, then we know
            // that this delimiter is a row delimiter.
            if (
                strMatchedDelimiter.length &&
                strMatchedDelimiter !== strDelimiter
                ){

                // Since we have reached a new row of data,
                // add an empty row to our data array.
                arrData.push( [] );

            }

            var strMatchedValue;

            // Now that we have our delimiter out of the way,
            // let's check to see which kind of value we
            // captured (quoted or unquoted).
            if (arrMatches[ 2 ]){

                // We found a quoted value. When we capture
                // this value, unescape any double quotes.
                strMatchedValue = arrMatches[ 2 ].replace(
                    new RegExp( "\"\"", "g" ),
                    "\""
                    );

            } else {

                // We found a non-quoted value.
                strMatchedValue = arrMatches[ 3 ];

            }


            // Now that we have our value string, let's add
            // it to the data array.
            arrData[ arrData.length - 1 ].push( strMatchedValue );
        }

        // Return the parsed data.
        return( arrData );
    }

</script>

1
สิ่งนี้สามารถจัดการเครื่องหมายจุลภาค, เครื่องหมายคำพูดและตัวแบ่งบรรทัดเช่น: var csv = 'id, ค่า \ n1, James \ n02, "Jimmy Smith, Esq." \ n003, "James" "Jimmy" "Smith, III" \ n0004, "James \ nSmith \ n ต้องการที่นี่" 'var array = CSVToArray (csv, ",");
ต้นแบบ

4
มันทำให้undefinedสำหรับเขตที่ว่างเปล่าที่ยกมา ตัวอย่าง: CSVToArray("4,,6")ให้ฉัน[["4","","6"]]แต่ให้ฉันCSVToArray("4,\"\",6") [["4",undefined,"6"]]
ปาง

3
ฉันมีปัญหากับเรื่องนี้ใน firefox และสคริปต์ก็ไม่ตอบสนอง ดูเหมือนว่าจะส่งผลกระทบต่อผู้ใช้เพียงไม่กี่รายเท่านั้นดังนั้นจึงไม่พบสาเหตุ
JDandChips

8
: มีข้อผิดพลาดใน regex คือควรจะเป็น"([^\"\\" "([^\\"มิฉะนั้นการเสนอราคาซ้ำที่ใดก็ได้ในค่าที่ไม่ได้อ้างอิงจะเป็นการสิ้นสุดก่อนกำหนด พบวิธีที่ยากลำบากนี้ ...
Walter Tross

5
สำหรับใครที่กำลังมองหารุ่นที่ลดลงของวิธีการดังกล่าวมีการแก้ไข regex อธิบายข้างต้นนำไปใช้: gist.github.com/Jezternz/c8e9fafc2c114e079829974e3764db75
จอช Mc

147

jQuery-CSV

มันเป็นปลั๊กอิน jquery ที่ออกแบบมาเพื่อทำงานเป็นโซลูชันแบบครบวงจรสำหรับการแยกวิเคราะห์ CSV ลงในข้อมูล Javascript มันจัดการกับทุกกรณีขอบเดียวที่นำเสนอในRFC 4180เช่นเดียวกับที่ปรากฏขึ้นสำหรับการส่งออก Excel / Google Spreadsheed (เช่นส่วนใหญ่เกี่ยวข้องกับค่า null) ที่ spec หายไป

ตัวอย่าง:

ติดตามศิลปิน, อัลบั้ม, ปี

อันตราย 'Busta Rhymes', 'Disaster Strikes', 1997

// calling this
music = $.csv.toArrays(csv)

// outputs...
[
  ["track","artist","album","year"],
  ["Dangerous","Busta Rhymes","When Disaster Strikes","1997"]
]

console.log(music[1][2]) // outputs: 'When Disaster Strikes'

ปรับปรุง:

โอ้ใช่ฉันควรจะพูดถึงว่ามันสามารถกำหนดค่าได้อย่างสมบูรณ์

music = $.csv.toArrays(csv, {
  delimiter:"'", // sets a custom value delimiter character
  separator:';', // sets a custom field separator character
});

อัปเดต 2:

ตอนนี้ใช้ได้กับ jQuery บน Node.js ด้วย ดังนั้นคุณมีตัวเลือกในการแยกวิเคราะห์ฝั่งไคลเอ็นต์หรือฝั่งเซิร์ฟเวอร์ด้วย lib เดียวกัน

อัปเดต 3:

ตั้งแต่ปิด Google Code, jQuery-CSV ได้รับการอพยพไป GitHub

คำเตือน: ฉันยังเป็นผู้เขียน jQuery-CSV


29
ทำไม jQuery csv ทำไมมันขึ้นอยู่กับ jQuery ฉันมีการสแกนอย่างรวดเร็วผ่านแหล่งที่มา ... มันดูไม่เหมือนคุณกำลังใช้ jQuery
paulslater19

17
@ paulslater19 ปลั๊กอินไม่ได้ขึ้นอยู่กับ jquery ค่อนข้างเป็นไปตามแนวทางการพัฒนา jQuery ทั่วไป วิธีการทั้งหมดที่รวมไว้เป็นแบบสแตติกและอยู่ภายใต้เนมสเปซของตนเอง (เช่น $ .csv) หากต้องการใช้งานโดยไม่มี jQuery เพียงแค่สร้างออบเจค $ global ที่ปลั๊กอินจะผูกไว้ในระหว่างการเริ่มต้น
Evan Plaice

2
อยู่csvในโค้ดโซลูชันอ้างถึง.csv filename? ฉันสนใจเครื่องมือ JS / JQuery ที่ดีในการแยกไฟล์ csv
bouncingHippo

1
@bouncingHippo ในตัวอย่างเป็นเพียงการอ้างถึงสตริงของข้อมูล csv แต่สามารถใช้ lib เพื่อเปิดไฟล์ csv ภายในเครื่องในเบราว์เซอร์โดยใช้ HTML5 File API นี่คือตัวอย่างของมันในการดำเนินการjquery-csv.googlecode.com/git/examples/file-handling.html
Evan Plaice

1
เนื่องจากไม่ได้ขึ้นอยู่กับ jQuery จะเป็นการดีกว่าที่จะลบการพึ่งพาทั่วโลก "$" และให้ผู้ใช้ผ่านการอ้างอิงวัตถุใด ๆ ที่พวกเขาต้องการ อาจเริ่มต้นที่ jQuery หากมี มีห้องสมุดอื่น ๆ ที่ใช้ "$" และมันอาจถูกใช้โดยทีมพัฒนาที่มีผู้รับมอบฉันทะน้อยที่สุดของห้องสมุดเหล่านั้น
RobG

40

ฉันมีการใช้งานเป็นส่วนหนึ่งของโครงการสเปรดชีต

รหัสนี้ยังไม่ได้ทดสอบอย่างละเอียด แต่ทุกคนสามารถใช้งานได้

ดังที่คำตอบบางส่วนระบุไว้การใช้งานของคุณอาจง่ายกว่ามากหากคุณมีไฟล์DSVหรือTSVเนื่องจากไม่อนุญาตให้ใช้ตัวแยกเรคคอร์ดและฟิลด์ในค่า ในทางกลับกัน CSV สามารถมีเครื่องหมายจุลภาคและบรรทัดใหม่ภายในเขตข้อมูลซึ่งแบ่งวิธีการ regex และการแยกส่วนใหญ่

var CSV = {
parse: function(csv, reviver) {
    reviver = reviver || function(r, c, v) { return v; };
    var chars = csv.split(''), c = 0, cc = chars.length, start, end, table = [], row;
    while (c < cc) {
        table.push(row = []);
        while (c < cc && '\r' !== chars[c] && '\n' !== chars[c]) {
            start = end = c;
            if ('"' === chars[c]){
                start = end = ++c;
                while (c < cc) {
                    if ('"' === chars[c]) {
                        if ('"' !== chars[c+1]) { break; }
                        else { chars[++c] = ''; } // unescape ""
                    }
                    end = ++c;
                }
                if ('"' === chars[c]) { ++c; }
                while (c < cc && '\r' !== chars[c] && '\n' !== chars[c] && ',' !== chars[c]) { ++c; }
            } else {
                while (c < cc && '\r' !== chars[c] && '\n' !== chars[c] && ',' !== chars[c]) { end = ++c; }
            }
            row.push(reviver(table.length-1, row.length, chars.slice(start, end).join('')));
            if (',' === chars[c]) { ++c; }
        }
        if ('\r' === chars[c]) { ++c; }
        if ('\n' === chars[c]) { ++c; }
    }
    return table;
},

stringify: function(table, replacer) {
    replacer = replacer || function(r, c, v) { return v; };
    var csv = '', c, cc, r, rr = table.length, cell;
    for (r = 0; r < rr; ++r) {
        if (r) { csv += '\r\n'; }
        for (c = 0, cc = table[r].length; c < cc; ++c) {
            if (c) { csv += ','; }
            cell = replacer(r, c, table[r][c]);
            if (/[,\r\n"]/.test(cell)) { cell = '"' + cell.replace(/"/g, '""') + '"'; }
            csv += (cell || 0 === cell) ? cell : '';
        }
    }
    return csv;
}
};

9
นี่คือหนึ่งในคำตอบที่ฉันโปรดปราน มันเป็นตัวแยกวิเคราะห์จริงที่นำมาใช้ในโค้ดไม่มาก
Trevor Dixon

1
หากวางเครื่องหมายจุลภาคที่ท้ายบรรทัดเซลล์ว่างควรทำตาม รหัสนี้จะข้ามไปที่บรรทัดถัดไปส่งผลให้undefinedเซลล์ ตัวอย่างเช่นconsole.log(CSV.parse("first,last,age\r\njohn,doe,"));
skibulk

นอกจากนี้เซลล์ว่างควรแจงเป็นสตริงว่าง รหัสนี้แยกวิเคราะห์พวกเขาเป็นศูนย์ซึ่งทำให้เกิดความสับสนเนื่องจากเซลล์สามารถมีค่าเป็นศูนย์จริง ๆ :console.log(CSV.parse("0,,2,3"));
skibulk

@skibulk ความคิดเห็นที่สองของคุณไม่ถูกต้อง (อย่างน้อยใน Chrome ก็ใช้ได้กับตัวอย่างของคุณ) ความคิดเห็นแรกของคุณถูกต้องแม้ว่าจะแก้ไขได้อย่างง่ายดาย - เพิ่มสิทธิ์ต่อไปนี้ก่อนif ('\r' === chars[c]) { ... }:if (end === c-1) { row.push(reviver(table.length-1, row.length, '')); }
coderforlife

35

ต่อไปนี้เป็นตัวแยกวิเคราะห์ CSV ที่ง่ายมากที่จัดการฟิลด์ที่มีเครื่องหมายจุลภาคบรรทัดใหม่และเครื่องหมายคำพูดคู่ ไม่มีการแยกหรือ RegEx มันจะสแกนสตริงอินพุต 1-2 ตัวอักษรในแต่ละครั้งและสร้างอาร์เรย์

ทดสอบที่http://jsfiddle.net/vHKYH/

function parseCSV(str) {
    var arr = [];
    var quote = false;  // true means we're inside a quoted field

    // iterate over each character, keep track of current row and column (of the returned array)
    for (var row = 0, col = 0, c = 0; c < str.length; c++) {
        var cc = str[c], nc = str[c+1];        // current character, next character
        arr[row] = arr[row] || [];             // create a new row if necessary
        arr[row][col] = arr[row][col] || '';   // create a new column (start with empty string) if necessary

        // If the current character is a quotation mark, and we're inside a
        // quoted field, and the next character is also a quotation mark,
        // add a quotation mark to the current column and skip the next character
        if (cc == '"' && quote && nc == '"') { arr[row][col] += cc; ++c; continue; }  

        // If it's just one quotation mark, begin/end quoted field
        if (cc == '"') { quote = !quote; continue; }

        // If it's a comma and we're not in a quoted field, move on to the next column
        if (cc == ',' && !quote) { ++col; continue; }

        // If it's a newline (CRLF) and we're not in a quoted field, skip the next character
        // and move on to the next row and move to column 0 of that new row
        if (cc == '\r' && nc == '\n' && !quote) { ++row; col = 0; ++c; continue; }

        // If it's a newline (LF or CR) and we're not in a quoted field,
        // move on to the next row and move to column 0 of that new row
        if (cc == '\n' && !quote) { ++row; col = 0; continue; }
        if (cc == '\r' && !quote) { ++row; col = 0; continue; }

        // Otherwise, append the current character to the current column
        arr[row][col] += cc;
    }
    return arr;
}

มันง่ายและใช้งานได้สำหรับฉันสิ่งเดียวที่ฉันเปลี่ยนคือการเพิ่มการตัดแต่ง () ให้กับค่า :)
JustEngland

3
ดูเหมือนว่าจะสะอาดและตรงไปตรงมามากขึ้น ฉันต้องแยกวิเคราะห์ไฟล์ 4mb และคำตอบอื่น ๆ ชนกับฉันใน ie8 แต่สิ่งนี้จัดการมัน
Charles Clayton

3
มันก็ใช้ได้กับฉันเช่นกัน ฉันต้องทำการปรับเปลี่ยนครั้งเดียวเพื่อให้สามารถจัดการกับการป้อนบรรทัดได้อย่างเหมาะสม:if (cc == '\r' && nc == '\n' && !quote) { ++row; col = 0; ++c; continue; } if (cc == '\n' && !quote) { ++row; col = 0; continue; }
655063

1
ผู้ใช้อื่น (@ โซริน-postelnicu) ตีพิมพ์เป็นประโยชน์ฟังก์ชั่นสหายเพื่อเปิดผลลงในวัตถุพจนานุกรม: jsfiddle.net/8t2po6wh
Trevor Dixon

1
ใช่ทุกครั้งที่ต้องการความเร็วหรือรอยเท้าหน่วยความจำการแก้ปัญหาแบบนี้ก็ยอดเยี่ยม การแยกวิเคราะห์ด้วยเครื่องจักรกลของรัฐนั้นเรียบเนียนกว่ามาก
Tatarize

14

นี่คือไวยากรณ์ PEG (.js) ของฉันที่ดูเหมือนว่าตกลงที่ RFC 4180 (นั่นคือจัดการตัวอย่างที่http://en.wikipedia.org/wiki/Comma-separated_values ):

start
  = [\n\r]* first:line rest:([\n\r]+ data:line { return data; })* [\n\r]* { rest.unshift(first); return rest; }

line
  = first:field rest:("," text:field { return text; })*
    & { return !!first || rest.length; } // ignore blank lines
    { rest.unshift(first); return rest; }

field
  = '"' text:char* '"' { return text.join(''); }
  / text:[^\n\r,]* { return text.join(''); }

char
  = '"' '"' { return '"'; }
  / [^"]

ลองที่http://jsfiddle.net/knvzk/10หรือhttp://pegjs.majda.cz/online ดาวน์โหลด parser ที่สร้างขึ้นที่https://gist.github.com/3362830


2
ตรึง? ไม่ได้สร้าง AST ให้กับหน่วยความจำเพียงเล็กน้อยสำหรับไวยากรณ์ Type III มันสามารถจัดการกับเขตข้อมูลที่มีตัวอักษรขึ้นบรรทัดใหม่เพราะเป็นกรณีที่ยากที่สุดที่จะครอบคลุมในตัวแยกวิเคราะห์ 'ไวยากรณ์ปกติ' ทั้งสองวิธี +1 สำหรับแนวทางใหม่
Evan Plaice

1
ใช่มันขึ้นบรรทัดใหม่ภายในเขตข้อมูล
เทรเวอร์ดิกซัน

2
ดี ... เพียงอย่างเดียวมันดีกว่า 95% ของการติดตั้งใช้งานทั้งหมดที่ฉันเคยเห็น หากคุณต้องการตรวจสอบการปฏิบัติตาม RFC ฉบับสมบูรณ์โปรดดูการทดสอบที่นี่ ( jquery-csv.googlecode.com/git/test/test.html )
Evan Plaice

6
เล่นดี. +1 เมื่อเปลี่ยนฉันเป็น PEG ฉันรักตัวแยกวิเคราะห์ "ทำไมโปรแกรมด้วยมือในห้าวันสิ่งที่คุณสามารถใช้เวลาห้าปีในชีวิตของคุณโดยอัตโนมัติ" - Terence Parr, ANTLR
Subfuzion

14

csvToArray v1.3

ขนาดกะทัดรัด (645 ไบต์) แต่มีฟังก์ชั่นที่ใช้งานร่วมกันได้เพื่อแปลงสตริง CSV เป็นอาร์เรย์ 2D ซึ่งเป็นไปตามมาตรฐาน RFC4180

https://code.google.com/archive/p/csv-to-array/downloads

การใช้งานทั่วไป: jQuery

 $.ajax({
        url: "test.csv",
        dataType: 'text',
        cache: false
 }).done(function(csvAsString){
        csvAsArray=csvAsString.csvToArray();
 });

การใช้งานทั่วไป: Javascript

csvAsArray = csvAsString.csvToArray();

แทนที่ตัวคั่นฟิลด์

csvAsArray = csvAsString.csvToArray("|");

แทนที่ตัวคั่นเรกคอร์ด

csvAsArray = csvAsString.csvToArray("", "#");

แทนที่หัวข้าม

csvAsArray = csvAsString.csvToArray("", "", 1);

แทนที่ทั้งหมด

csvAsArray = csvAsString.csvToArray("|", "#", 1);

ฟังดูน่าสนใจ แต่ฉันไม่สามารถหารหัสได้ในขณะนี้ คุณช่วยโพสต์อีกครั้งได้ไหม?
Sam Watkins

1
ฉันได้อัปเดตโพสต์หลักด้วยลิงก์ปัจจุบัน ขอบคุณมาก.
dt192

3

ฉันไม่แน่ใจว่าทำไมฉันไม่สามารถออกจากอดีต ทำงานให้ฉัน ดูเหมือนว่าจะล้มเหลวในช่องว่างหรือช่องที่มีเครื่องหมายจุลภาคต่อท้าย ...

อันนี้ดูเหมือนว่าจะจัดการทั้ง

ฉันไม่ได้เขียนรหัส parser เพียงแค่ wrapper รอบ ๆ ฟังก์ชั่น parser เพื่อให้มันใช้งานได้กับไฟล์ ดูแหล่งที่มา

    var Strings = {
        /**
         * Wrapped csv line parser
         * @param s string delimited csv string
         * @param sep separator override
         * @attribution : http://www.greywyvern.com/?post=258 (comments closed on blog :( )
         */
        parseCSV : function(s,sep) {
            // http://stackoverflow.com/questions/1155678/javascript-string-newline-character
            var universalNewline = /\r\n|\r|\n/g;
            var a = s.split(universalNewline);
            for(var i in a){
                for (var f = a[i].split(sep = sep || ","), x = f.length - 1, tl; x >= 0; x--) {
                    if (f[x].replace(/"\s+$/, '"').charAt(f[x].length - 1) == '"') {
                        if ((tl = f[x].replace(/^\s+"/, '"')).length > 1 && tl.charAt(0) == '"') {
                            f[x] = f[x].replace(/^\s*"|"\s*$/g, '').replace(/""/g, '"');
                          } else if (x) {
                        f.splice(x - 1, 2, [f[x - 1], f[x]].join(sep));
                      } else f = f.shift().split(sep).concat(f);
                    } else f[x].replace(/""/g, '"');
                  } a[i] = f;
        }
        return a;
        }
    }

1

การแสดงออกปกติเพื่อช่วยเหลือ! โค้ดสองสามบรรทัดเหล่านี้จัดการฟิลด์ที่ยกมาอย่างเหมาะสมด้วยเครื่องหมายจุลภาค, เครื่องหมายคำพูด, และการขึ้นบรรทัดใหม่ตามมาตรฐาน RFC 4180

function parseCsv(data, fieldSep, newLine) {
    fieldSep = fieldSep || ',';
    newLine = newLine || '\n';
    var nSep = '\x1D';
    var qSep = '\x1E';
    var cSep = '\x1F';
    var nSepRe = new RegExp(nSep, 'g');
    var qSepRe = new RegExp(qSep, 'g');
    var cSepRe = new RegExp(cSep, 'g');
    var fieldRe = new RegExp('(?<=(^|[' + fieldSep + '\\n]))"(|[\\s\\S]+?(?<![^"]"))"(?=($|[' + fieldSep + '\\n]))', 'g');
    var grid = [];
    data.replace(/\r/g, '').replace(/\n+$/, '').replace(fieldRe, function(match, p1, p2) {
        return p2.replace(/\n/g, nSep).replace(/""/g, qSep).replace(/,/g, cSep);
    }).split(/\n/).forEach(function(line) {
        var row = line.split(fieldSep).map(function(cell) {
            return cell.replace(nSepRe, newLine).replace(qSepRe, '"').replace(cSepRe, ',');
        });
        grid.push(row);
    });
    return grid;
}

const csv = 'A1,B1,C1\n"A ""2""","B, 2","C\n2"';
const separator = ',';      // field separator, default: ','
const newline = ' <br /> '; // newline representation in case a field contains newlines, default: '\n' 
var grid = parseCsv(csv, separator, newline);
// expected: [ [ 'A1', 'B1', 'C1' ], [ 'A "2"', 'B, 2', 'C <br /> 2' ] ]

คุณไม่จำเป็นต้องใช้ parser-generator เช่น lex / yacc การแสดงออกปกติจัดการ RFC 4180 ได้อย่างถูกต้องขอบคุณ lookbehind เชิงบวก lookbehind เชิงลบและ lookahead เชิงบวก

โคลน / รหัสดาวน์โหลดที่https://github.com/peterthoeny/parse-csv-js


Regexps มีการใช้งานโดยใช้เครื่องจักรสถานะ จำกัด ดังนั้นในความเป็นจริงคุณจำเป็นต้องมี FSM
Henry Henrinson

@HenryHenrinson: ไม่จำเป็น ฉันขอท้าให้คุณค้นหาปัญหาด้วยรหัสข้างต้น ฉันใช้มันในการผลิต นอกจากนี้ยังเป็นไปได้ที่จะทำการแยกวิเคราะห์ที่ซับซ้อนมากขึ้นด้วยการแสดงออกปกติ คุณไม่จำเป็นต้องใช้เครื่องมือแยกวิเคราะห์ LL เพื่อสร้างแผนผังไวยากรณ์ นี่คือบล็อก: วิธีใช้นิพจน์ทั่วไปเพื่อวิเคราะห์โครงสร้างซ้อนกัน, twiki.org/cgi-bin/view/Blog/BlogEntry201109x3
Peter Thoeny

@HenryHenrinson: โอ้ใช่หุ่นฉันเราอยู่ในข้อตกลงความรุนแรง :-)
ปีเตอร์เธนี่

-1

ฉันได้สร้างสคริปต์จาวาสคริปต์นี้เพื่อแยก CSV ในสตริงเพื่อวัตถุอาร์เรย์ ฉันคิดว่ามันจะดีกว่าที่จะแยก CSV ทั้งหมดออกเป็นบรรทัดฟิลด์และประมวลผลตามนั้น ฉันคิดว่ามันจะทำให้ง่ายสำหรับคุณที่จะเปลี่ยนรหัสเพื่อให้เหมาะกับความต้องการของคุณ

ฉันหวังว่ามันจะช่วยคุณ ขอบคุณ

    //
    //
    // CSV to object
    //
    //

    const new_line_char = '\n';
    const field_separator_char = ',';

    function parse_csv(csv_str) {

        var result = [];

        let line_end_index_moved = false;
        let line_start_index = 0;
        let line_end_index = 0;
        let csr_index = 0;
        let cursor_val = csv_str[csr_index];
        let found_new_line_char = get_new_line_char(csv_str);
        let in_quote = false;

        // handle \r\n
        if (found_new_line_char == '\r\n') {
            csv_str = csv_str.split(found_new_line_char).join(new_line_char);
        }
        // handle last char is not \n
        if (csv_str[csv_str.length - 1] !== new_line_char) {
            csv_str += new_line_char;
        }

        while (csr_index < csv_str.length) {
            if (cursor_val === '"') {
                in_quote = !in_quote;
            } else if (cursor_val === new_line_char) {
                if (in_quote === false) {
                    if (line_end_index_moved && (line_start_index <= line_end_index)) {
                        result.push(parse_csv_line(csv_str.substring(line_start_index, line_end_index)));
                        line_start_index = csr_index + 1;
                    } // else: just ignore line_end_index has not moved or line has not been sliced for parsing the line
                } // else: just ignore because we are in quote
            }
            csr_index++;
            cursor_val = csv_str[csr_index];
            line_end_index = csr_index;
            line_end_index_moved = true;
        }

        // handle \r\n
        if (found_new_line_char == '\r\n') {
            let new_result = [];
            let curr_row;
            for (var i = 0; i < result.length; i++) {
                curr_row = [];
                for (var j = 0; j < result[i].length; j++) {
                    curr_row.push(result[i][j].split(new_line_char).join('\r\n'));
                }
                new_result.push(curr_row);
            }
            result = new_result;
        }

        return result;
    }

    function parse_csv_line(csv_line_str) {

        var result = [];

        // let field_end_index_moved = false;
        let field_start_index = 0;
        let field_end_index = 0;
        let csr_index = 0;
        let cursor_val = csv_line_str[csr_index];
        let in_quote = false;

        // Pretend that the last char is the separator_char to complete the loop
        csv_line_str += field_separator_char;

        while (csr_index < csv_line_str.length) {
            if (cursor_val === '"') {
                in_quote = !in_quote;
            } else if (cursor_val === field_separator_char) {
                if (in_quote === false) {
                    if (field_start_index <= field_end_index) {
                        result.push(parse_csv_field(csv_line_str.substring(field_start_index, field_end_index)));
                        field_start_index = csr_index + 1;
                    } // else: just ignore field_end_index has not moved or field has not been sliced for parsing the field
                } // else: just ignore because we are in quote
            }
            csr_index++;
            cursor_val = csv_line_str[csr_index];
            field_end_index = csr_index;
            field_end_index_moved = true;
        }

        return result;
    }

    function parse_csv_field(csv_field_str) {
        with_quote = (csv_field_str[0] === '"');

        if (with_quote) {
            csv_field_str = csv_field_str.substring(1, csv_field_str.length - 1); // remove the start and end quotes
            csv_field_str = csv_field_str.split('""').join('"'); // handle double quotes
        }

        return csv_field_str;
    }

    // initial method: check the first newline character only
    function get_new_line_char(csv_str) {
        if (csv_str.indexOf('\r\n') > -1) {
            return '\r\n';
        } else {
            return '\n'
        }
    }

-3

ทำไมไม่ใช้เพียงแค่. split (',')

http://www.w3schools.com/jsref/jsref_split.asp

var str="How are you doing today?";
var n=str.split(" "); 

2
ทำไมนี่เป็นคำตอบที่ไม่ดี? มันเป็นสันดานสถานเนื้อหาสตริงเป็น array ที่สามารถทำงานได้ ...
คาห์

20
จำนวนของเหตุผล ก่อนอื่นมันจะไม่ลบเครื่องหมายคำพูดคู่ในค่าที่คั่นด้วย ไม่จัดการการแยกบรรทัด ไม่ใช้การยกเว้นเครื่องหมายคำพูดคู่ที่ใช้เพื่อหลีกเลี่ยงเครื่องหมายคำพูดคู่ที่ใช้ในค่าที่คั่นด้วย ไม่อนุญาตค่าว่าง ฯลฯ ฯลฯ ... ความยืดหยุ่นของรูปแบบ CSV ทำให้ใช้งานง่าย แต่ยากที่จะแยกวิเคราะห์ ฉันจะไม่ลงคะแนนนี่ แต่เพียงเพราะฉันไม่โหวตโหวตคำตอบที่แข่งขันกัน
Evan Plaice

1
เมื่อคุณพบกับค่าที่มีอักขระขึ้นบรรทัดใหม่ ฟังก์ชั่นแบ่งง่าย ๆ จะตีความว่ามันเป็นจุดสิ้นสุดของรายการแทนที่จะข้ามไปอย่างที่มันควร การแยกวิเคราะห์ CSV มีความซับซ้อนมากกว่าการให้ 2 รูทีนแยก (หนึ่งรายการสำหรับบรรทัดใหม่, อีกรายการสำหรับคั่น)
Evan Plaice

2
(ต่อ) นอกจากนี้ยังแยกค่าว่าง (a, null ,, ค่า) ส่งคืนอะไรในขณะที่มันควรจะกลับสตริงที่ว่างเปล่า อย่าเข้าใจฉันผิดการแบ่งเป็นการเริ่มต้นที่ดีถ้าคุณมั่นใจ 100% ว่าข้อมูลขาเข้าจะไม่แยกวิเคราะห์ แต่สร้าง parser ที่แข็งแกร่งที่สามารถจัดการข้อมูลใด ๆ ที่เป็นไปตามมาตรฐาน RFC 4801 มีความซับซ้อนมากขึ้น
Evan Plaice

8
อีวานฉันคิดว่าห้องสมุดจาวาสคริปต์ของคุณยอดเยี่ยม แต่นี่เป็นอีกมุมมองหนึ่ง - ฉันชื่นชมคำตอบนี้เพราะฉันเก็บตัวเลขไว้ในแบบคาดเดาได้ง่าย มันสำคัญมากสำหรับฉันที่จะรับประกันความเข้ากันได้ของ Javascript ข้ามเบราว์เซอร์และการบำรุงรักษาที่ไกลที่สุดในอนาคตเท่าที่จะเป็นไปได้มากกว่าที่จะมีห้องสมุดขนาดใหญ่ ความต้องการที่แตกต่างกันต้องการวิธีการที่แตกต่างกัน หากฉันต้องการพลัง CSV ที่แท้จริงฉันจะ จำกัด การใช้ห้องสมุดของคุณอย่างแน่นอน! :-)
moodboom
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.