เข้าร่วมสองไฟล์ที่มีคอลัมน์ที่ตรงกัน


11

File1.txt

    id                            No
    gi|371443199|gb|JH556661.1| 7907290
    gi|371443198|gb|JH556662.1| 7573913
    gi|371443197|gb|JH556663.1| 7384412
    gi|371440577|gb|JH559283.1| 6931777

File2.txt

 id                              P       R       S
 gi|367088741|gb|AGAJ01056324.1| 5       5       0
 gi|371443198|gb|JH556662.1|     2       2       0
 gi|367090281|gb|AGAJ01054784.1| 4       4       0
 gi|371440577|gb|JH559283.1|     21      19      2

output.txt

 id                              P       R       S  NO
 gi|371443198|gb|JH556662.1|     2       2       0  7573913
 gi|371440577|gb|JH559283.1|     21      19      2  6931777

File1.txt มีสองคอลัมน์ & File2.txt มีสี่คอลัมน์ ฉันต้องการเข้าร่วมทั้งสองไฟล์ที่มี id ไม่ซ้ำกัน (อาร์เรย์ [1] ควรตรงกับไฟล์ทั้งสอง (file1.txt & file2.txt) และให้ ouput เฉพาะ id ที่ตรงกัน (ดู output.txt)

ฉันได้ลองjoin -v <(sort file1.txt) <(sort file2.txt)แล้ว ความช่วยเหลือใด ๆ กับ awk หรือเข้าร่วมคำสั่งที่ร้องขอ

คำตอบ:


18

join ใช้งานได้ดี:

$ join <(sort File1.txt) <(sort File2.txt) | column -t | tac
 id                           No       P   R   S
 gi|371443198|gb|JH556662.1|  7573913  2   2   0
 gi|371440577|gb|JH559283.1|  6931777  21  19  2

PS ลำดับของคอลัมน์ ouput มีความสำคัญอย่างไร

ถ้าใช่ใช้:

$ join <(sort 1) <(sort 2) | tac | awk '{print $1,$3,$4,$5,$2}' | column -t
 id                           P   R   S  No
 gi|371443198|gb|JH556662.1|  2   2   0  7573913
 gi|371440577|gb|JH559283.1|  21  19  2  6931777

ใช้งานได้ดี ลำดับคอลัมน์ไม่สำคัญ
แจ็ค

อะไรเหตุผลรวมทั้งtac?
Michael Mrozek

นั่นเป็นเพราะsortสถานที่สตริงส่วนหัวในตอนท้าย จริงๆแล้วมันเป็นวิธีที่สกปรก และในกรณีที่ส่วนหัวทั่วไปอาจเข้าไปตรงกลางของผลลัพธ์ อย่างไรก็ตามมันใช้งานได้ที่นี่
เร่ง

10

วิธีหนึ่งในการใช้awk:

เนื้อหาของscript.awk:

## Process first file of arguments. Save 'id' as key and 'No' as value
## of a hash.
FNR == NR {
    if ( FNR == 1 ) { 
        header = $2
        next
    }   
    hash[ $1 ] = $2
    next
}

## Process second file of arguments. Print header in first line and for
## the rest check if first field is found in the hash.
FNR < NR {
    if ( $1 in hash || FNR == 1 ) { 
        printf "%s %s\n", $0, ( FNR == 1 ? header : hash[ $1 ] ) 
    }   
}

เรียกใช้เช่น:

awk -f script.awk File1.txt File2.txt | column -t

ด้วยผลลัพธ์ต่อไปนี้:

id                           P   R   S  NO
gi|371443198|gb|JH556662.1|  2   2   0  7573913
gi|371440577|gb|JH559283.1|  21  19  2  6931777

+65535 สำหรับการรักษาบรรทัดคำสั่งเดิม :-)
zeekvfu

+65535 สำหรับการรักษาบรรทัดคำสั่งเดิม :-)
zeekvfu
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.