node.js: อ่านไฟล์ข้อความในอาร์เรย์ (แต่ละบรรทัดรายการในอาร์เรย์)


164

ฉันต้องการอ่านไฟล์ขนาดใหญ่มาก ๆ เข้าไปในอาร์เรย์ JavaScript ใน node.js

ดังนั้นหากไฟล์เป็นเช่นนี้:

first line
two 
three
...
...

ฉันจะมีอาร์เรย์:

['first line','two','three', ... , ... ] 

ฟังก์ชั่นจะเป็นดังนี้:

var array = load(filename); 

ดังนั้นความคิดของการโหลดมันทั้งหมดเป็นสตริงแล้วแยกมันไม่เป็นที่ยอมรับ


คำถามนี้ต้องการการแก้ไขและล้างข้อมูลอย่างจริงจัง มันบอกว่าอ่านไฟล์ข้อความลงในอาร์เรย์แต่เมื่อคุณอ่านคำตอบและความคิดเห็นทั้งหมดจริงๆมันหมายถึงการอ่านแฟ้มข้อความหนึ่งบรรทัดในเวลา สำหรับคำถามนั้น @zswang มีคำตอบที่ดีที่สุด
Jess

yup เพิ่งอ่านไฟล์นั้นแล้วกดแต่ละบรรทัดลงในอาร์เรย์: stackoverflow.com/a/34033928/1536309
Blair Anderson

คำตอบ:


89

หากคุณสามารถใส่ข้อมูลสุดท้ายลงในอาเรย์แล้วคุณจะไม่สามารถใส่มันลงในสตริงและแยกมันได้ตามที่ได้รับการแนะนำ? ไม่ว่าในกรณีใดหากคุณต้องการประมวลผลไฟล์ทีละบรรทัดคุณสามารถลองทำสิ่งต่อไปนี้:

var fs = require('fs');

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    while (index > -1) {
      var line = remaining.substring(0, index);
      remaining = remaining.substring(index + 1);
      func(line);
      index = remaining.indexOf('\n');
    }
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

function func(data) {
  console.log('Line: ' + data);
}

var input = fs.createReadStream('lines.txt');
readLines(input, func);

แก้ไข: (ตอบสนองต่อความคิดเห็นโดยphopkins ) ฉันคิดว่า (อย่างน้อยในรุ่นที่ใหม่กว่า) substring ไม่ได้คัดลอกข้อมูล แต่สร้างวัตถุ SlicedString พิเศษ (จากอย่างรวดเร็วที่รหัสที่มา v8) ไม่ว่าในกรณีใด ๆ นี่คือการดัดแปลงที่หลีกเลี่ยงซับสตริงที่กล่าวถึง (ทดสอบบนไฟล์หลายเมกะไบต์ที่มีมูลค่าของ "การทำงานทั้งหมดและไม่มีการเล่นทำให้ Jack เป็นเด็กที่น่าเบื่อ"):

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    var last  = 0;
    while (index > -1) {
      var line = remaining.substring(last, index);
      last = index + 1;
      func(line);
      index = remaining.indexOf('\n', last);
    }

    remaining = remaining.substring(last);
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

ขอบคุณ เพื่อตอบคำถามของคุณ: ไม่สตริงจะใหญ่เกินไป
chacko

7
ฉันลองสิ่งนี้กับไฟล์ประมาณ 2MB หรือมากกว่านั้นและมันก็ช้าอย่างเจ็บปวดช้ากว่าการอ่านไฟล์ในแบบซิงโครนัสกับสตริง ฉันคิดว่าปัญหาคือส่วนที่เหลือ = เหลือบรรทัดย่อย "data" ของ Node อาจให้คุณได้ครั้งละมากและการทำสำเนานั้นสำหรับทุก ๆ บรรทัดกลายเป็น O (n ^ 2) อย่างรวดเร็ว
ฟิโอน่าฮอ

@ คำตอบของ Finbar ดีกว่ามาก
rü-

444

ซิงโคร:

var fs = require('fs');
var array = fs.readFileSync('file.txt').toString().split("\n");
for(i in array) {
    console.log(array[i]);
}

asynchronous:

var fs = require('fs');
fs.readFile('file.txt', function(err, data) {
    if(err) throw err;
    var array = data.toString().split("\n");
    for(i in array) {
        console.log(array[i]);
    }
});

11
ขอบคุณ น่าเสียดายที่ฉันต้องแก้ไขคำถามของฉัน ฉันหมายถึงวิธีการอ่านไฟล์ขนาดใหญ่อย่างหนาแน่น การอ่านทุกอย่างในสตริงไม่สามารถยอมรับได้
chacko

1
สิ่งที่ฉันต้องการ ง่ายและรวดเร็ว
Hcabnettek

16
ฉันพบว่าการทำเช่นนี้กับไฟล์ที่สร้างโดย Windows ฉันต้องแยก \ r \ n แต่มันทำให้ Mac แตก; แข็งแกร่งขึ้น _array = string.replace (/ \ r \ n / g, '\ n'). split ('\ n'); ทำงานสำหรับทั้งสอง
Will Hancock

6
+1 มีปัญหาบางอย่างใน Stackoverflow ตอนนี้ฉันมักจะพบคำตอบที่ลงคะแนนสูงหลังจากเลื่อนลงไปมากเกินไป นี่เป็นตัวอย่างของสิ่งนี้ มีการลงคะแนนสูงสุด แต่อยู่ที่ด้านล่างสุดของหน้าสุดท้าย ฉันคิดว่า Stackoverflow จำเป็นต้องปรับปรุงอัลกอริทึมการสั่งซื้อ
shashwat

1
@shashwat ผู้ที่ถามคำถามจะตัดสินใจว่าคำตอบที่ถูกต้องคืออะไร ในกรณีนี้พวกเขาต้องการโซลูชันสตรีมมิ่งสำหรับไฟล์ขนาดใหญ่และการวางไฟล์ทั้งหมดในสตริงนั้นไม่สามารถยอมรับได้ ไม่มีอะไรผิดปกติกับ SO จริงๆ
ทำให้ถูกกฎหมาย

73

ใช้ Node.js โมดูล ReadLine

var fs = require('fs');
var readline = require('readline');

var filename = process.argv[2];
readline.createInterface({
    input: fs.createReadStream(filename),
    terminal: false
}).on('line', function(line) {
   console.log('Line: ' + line);
});

1
น่าเศร้าที่มีปัญหากับวิธีแก้ไขปัญหานี้: คุณไม่ได้รับบรรทัดสุดท้ายหากไฟล์ไม่มี\nจุดสิ้นสุด! ดู: stackoverflow.com/questions/18450197/…
Yves M.

8
โหนดได้แก้ไขปัญหาดังกล่าวกับ \ n stackoverflow.com/a/32599033/3763850
Gemtastic

14

js:

var array = fs.readFileSync('file.txt', 'utf8').split('\n');

ทีเอส:

var array = fs.readFileSync('file.txt', 'utf8').toString().split('\n');

1
เพื่อป้องกันการขว้างไปด้านบนTypeError: fs.readFileSync(...).split is not a functionคุณควรใช้. toString () ดังนี้:var array = fs.readFileSync('file.txt', 'utf8').toString().split('\n');
Qua285

11

ใช้ readline ( เอกสาร ) นี่คือตัวอย่างการอ่านไฟล์ css แยกวิเคราะห์ไอคอนและเขียนลงใน json

var results = [];
  var rl = require('readline').createInterface({
    input: require('fs').createReadStream('./assets/stylesheets/_icons.scss')
  });


  // for every new line, if it matches the regex, add it to an array
  // this is ugly regex :)
  rl.on('line', function (line) {
    var re = /\.icon-icon.*:/;
    var match;
    if ((match = re.exec(line)) !== null) {
      results.push(match[0].replace(".",'').replace(":",''));
    }
  });


  // readline emits a close event when the file is read.
  rl.on('close', function(){
    var outputFilename = './icons.json';
    fs.writeFile(outputFilename, JSON.stringify(results, null, 2), function(err) {
        if(err) {
          console.log(err);
        } else {
          console.log("JSON saved to " + outputFilename);
        }
    });
  });


5

ด้วยBufferedReaderแต่ฟังก์ชั่นควรเป็นแบบอะซิงโครนัส:

var load = function (file, cb){
    var lines = [];
    new BufferedReader (file, { encoding: "utf8" })
        .on ("error", function (error){
            cb (error, null);
        })
        .on ("line", function (line){
            lines.push (line);
        })
        .on ("end", function (){
            cb (null, lines);
        })
        .read ();
};

load ("file", function (error, lines){
    if (error) return console.log (error);
    console.log (lines);
});

4

ฉันแค่ต้องการเพิ่ม @finbarr คำตอบที่ดีแก้ไขเล็กน้อยในตัวอย่างไม่ตรงกัน:

asynchronous:

var fs = require('fs');
fs.readFile('file.txt', function(err, data) {
    if(err) throw err;
    var array = data.toString().split("\n");
    for(i in array) {
        console.log(array[i]);
    }
    done();
});

@MadPhysicist, done () เป็นสิ่งที่เผยแพร่ async โทร.


3

นี่เป็นรูปแบบของคำตอบข้างต้นโดย @mtomis

มันสร้างกระแสของเส้น มันปล่อยกิจกรรม 'ข้อมูล' และ 'สิ้นสุด' ช่วยให้คุณจัดการกับจุดสิ้นสุดของกระแส

var events = require('events');

var LineStream = function (input) {
    var remaining = '';

    input.on('data', function (data) {
        remaining += data;
        var index = remaining.indexOf('\n');
        var last = 0;
        while (index > -1) {
            var line = remaining.substring(last, index);
            last = index + 1;
            this.emit('data', line);
            index = remaining.indexOf('\n', last);
        }
        remaining = remaining.substring(last);
    }.bind(this));

    input.on('end', function() {
        if (remaining.length > 0) {
            this.emit('data', remaining);
        }
        this.emit('end');
    }.bind(this));
}

LineStream.prototype = new events.EventEmitter;

ใช้เป็นเสื้อคลุม:

var lineInput = new LineStream(input);

lineInput.on('data', function (line) {
    // handle line
});

lineInput.on('end', function() {
    // wrap it up
});

1
คุณจะจบลงด้วยการแบ่งปันกิจกรรมระหว่างอินสแตนซ์ var EventEmitter = require('events').EventEmitter; var util = require('util'); function GoodEmitter() { EventEmitter.call(this); } util.inherits(GoodEmitter, EventEmitter);
CTAPbIu_MABP

อินสแตนซ์ใดที่คุณพูดถึงอย่างแน่นอน
oferei

1
พยายามที่จะสร้างvar li1 = new LineStream(input1), li2 = new LineStream(input2);แล้วนับว่ายิง 'จบ' กี่ครั้งสำหรับแต่ละรายการ
CTAPbIu_MABP

ลองมัน 'สิ้นสุด' ถูกไล่ออกหนึ่งครั้งสำหรับแต่ละอินสแตนซ์ var fs = require('fs'); var input1 = fs.createReadStream('text.txt'); var ls1 = new LineStream(input1); ls1.on('data', function (line) { console.log('1:line=' + line); }); ls1.on('end', function (line) { console.log('1:fin'); }); var input2 = fs.createReadStream('text.txt'); var ls2 = new LineStream(input2); ls2.on('data', function (line) { console.log('2:line=' + line); }); ls2.on('end', function (line) { console.log('2:fin'); }); เอาต์พุต: แต่ละบรรทัดในไฟล์ข้อความถูกเริ่มทำงานหนึ่งครั้งสำหรับแต่ละอินสแตนซ์ ดังนั้น 'จบ'
oferei

2

ฉันมีปัญหาเดียวกันและฉันแก้ไขมันด้วยโมดูลทีละบรรทัด

https://www.npmjs.com/package/line-by-line

อย่างน้อยสำหรับฉันทำงานได้อย่างมีเสน่ห์ทั้งในโหมดซิงโครนัสและอะซิงโครนัส

นอกจากนี้ปัญหาเกี่ยวกับการยกเลิกบรรทัดที่ไม่สิ้นสุด \ n สามารถแก้ไขได้ด้วยตัวเลือก:

{ encoding: 'utf8', skipEmptyLines: false }

การประมวลผลแบบซิงโครนัสของบรรทัด:

var LineByLineReader = require('line-by-line'),
    lr = new LineByLineReader('big_file.txt');

lr.on('error', function (err) {
    // 'err' contains error object
});

lr.on('line', function (line) {
    // 'line' contains the current line without the trailing newline character.
});

lr.on('end', function () {
    // All lines are read, file is closed now.
}); 

2

การใช้ Node.js v8 หรือใหม่กว่ามีคุณสมบัติใหม่ที่แปลงฟังก์ชันปกติให้เป็นฟังก์ชัน async

util.promisify

มันเป็นคุณสมบัติที่ยอดเยี่ยม นี่คือตัวอย่างของการแยก 10,000 หมายเลขจากไฟล์ txt ลงในอาร์เรย์นับจำนวนผู้รุกรานโดยใช้การเรียงลำดับผสานกับตัวเลข

// read from txt file
const util = require('util');
const fs = require('fs')
fs.readFileAsync = util.promisify(fs.readFile);
let result = []

const parseTxt = async (csvFile) => {
  let fields, obj
  const data = await fs.readFileAsync(csvFile)
  const str = data.toString()
  const lines = str.split('\r\n')
  // const lines = str
  console.log("lines", lines)
  // console.log("str", str)

  lines.map(line => {
    if(!line) {return null}
    result.push(Number(line))
  })
  console.log("result",result)
  return result
}
parseTxt('./count-inversion.txt').then(() => {
  console.log(mergeSort({arr: result, count: 0}))
})

1

หากต้องการอ่านไฟล์ขนาดใหญ่ในอาเรย์คุณสามารถอ่านทีละบรรทัดหรือทีละชิ้น

ทีละบรรทัดอ้างถึงคำตอบของฉันที่นี่

var fs = require('fs'),
    es = require('event-stream'),

var lines = [];

var s = fs.createReadStream('filepath')
    .pipe(es.split())
    .pipe(es.mapSync(function(line) {
        //pause the readstream
        s.pause();
        lines.push(line);
        s.resume();
    })
    .on('error', function(err) {
        console.log('Error:', err);
    })
    .on('end', function() {
        console.log('Finish reading.');
        console.log(lines);
    })
);

อันโดยก้อนอ้างอิงถึงบทความนี้

var offset = 0;
var chunkSize = 2048;
var chunkBuffer = new Buffer(chunkSize);
var fp = fs.openSync('filepath', 'r');
var bytesRead = 0;
while(bytesRead = fs.readSync(fp, chunkBuffer, 0, chunkSize, offset)) {
    offset += bytesRead;
    var str = chunkBuffer.slice(0, bytesRead).toString();
    var arr = str.split('\n');

    if(bytesRead = chunkSize) {
        // the last item of the arr may be not a full line, leave it to the next chunk
        offset -= arr.pop().length;
    }
    lines.push(arr);
}
console.log(lines);
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.