วิธีที่ดีที่สุดในการย้ายไฟล์ระหว่างบัคเก็ต S3?

Question 1

ฉันต้องการคัดลอกไฟล์บางไฟล์จากที่เก็บข้อมูลการผลิตไปยังที่เก็บข้อมูลการพัฒนาทุกวัน

ตัวอย่างเช่นคัดลอก productionbucket / feed / feedname / date ไปยัง developmentbucket / feed / feedname / date

เนื่องจากไฟล์ที่ฉันต้องการอยู่ลึกมากในโครงสร้างโฟลเดอร์การไปที่แต่ละโฟลเดอร์และคัดลอก / วางจึงใช้เวลานานเกินไป

ฉันได้เล่นกับการติดตั้งไดรฟ์ไปยังแต่ละที่เก็บข้อมูลและเขียนสคริปต์แบตช์ Windows แต่มันช้ามากและดาวน์โหลดไฟล์ / โฟลเดอร์ทั้งหมดไปยังเซิร์ฟเวอร์ภายในเครื่องโดยไม่จำเป็นและสำรองข้อมูลอีกครั้ง

Question 2

อัปเดต

ตามที่ระบุไว้โดย alberge (+1) ในปัจจุบันAWS Command Line Interface ที่ยอดเยี่ยมมอบแนวทางที่หลากหลายที่สุดสำหรับการโต้ตอบกับ AWS (เกือบ) ทุกอย่างในขณะเดียวกันก็ครอบคลุม API ของบริการส่วนใหญ่และยังมีคำสั่ง S3 ระดับที่สูงขึ้นสำหรับจัดการกับของคุณ กรณีใช้งานโดยเฉพาะดูการอ้างอิง AWS CLI สำหรับ S3 :

ซิงค์ - ซิงค์ไดเรกทอรีและคำนำหน้า S3 กรณีการใช้งานของคุณจะถูกปกคลุมด้วยตัวอย่างที่ 2 (ละเอียดมากขึ้นเม็ดเล็กใช้งานด้วย--exclude, --includeและการจัดการคำนำหน้า ฯลฯ นอกจากนี้ยังมี):
คำสั่ง sync ต่อไปนี้จะซิงค์ออบเจ็กต์ภายใต้คำนำหน้าและที่เก็บข้อมูลที่ระบุกับอ็อบเจ็กต์ภายใต้คำนำหน้าและที่เก็บข้อมูลอื่นที่ระบุโดยการคัดลอกอ็อบเจ็กต์ s3 [... ]
```
aws s3 sync s3://from_my_bucket s3://to_my_other_bucket
```

เพื่อความสมบูรณ์ฉันจะพูดถึงว่าคำสั่ง S3 ระดับล่างยังสามารถใช้ได้ผ่านคำสั่งย่อยs3apiซึ่งจะอนุญาตให้แปลโซลูชันที่ใช้ SDK ไปยัง AWS CLI โดยตรงก่อนที่จะใช้ฟังก์ชันระดับที่สูงขึ้นในที่สุด

คำตอบเริ่มต้น

การย้ายไฟล์ระหว่างบัคเก็ต S3 สามารถทำได้โดยใช้PUT Object - Copy API (ตามด้วยDELETE Object ):

การใช้การดำเนินการ PUT นี้จะสร้างสำเนาของวัตถุที่เก็บไว้แล้วใน Amazon S3 การดำเนินการ PUT copy จะเหมือนกับการดำเนินการ GET และ PUT การเพิ่มส่วนหัวของคำขอ x-amz-copy-source ทำให้การดำเนินการ PUT คัดลอกออบเจ็กต์ต้นทางลงในที่เก็บข้อมูลปลายทาง ที่มา

มีตัวอย่างที่เกี่ยวข้องมีการทั้งหมดที่มีอยู่ AWS SDK ของที่มีอยู่ให้ดูที่การคัดลอกวัตถุในการทำงานครั้งเดียว ตามปกติแล้วโซลูชันที่ใช้สคริปต์จะเป็นตัวเลือกแรกที่ชัดเจนที่นี่ดังนั้นการคัดลอกวัตถุโดยใช้ AWS SDK สำหรับ Rubyอาจเป็นจุดเริ่มต้นที่ดี ถ้าคุณชอบงูใหญ่แทนเดียวกันสามารถทำได้ผ่านทางBotoเช่นกันแน่นอนดูวิธีการcopy_key()ภายใน Boto ของเอกสาร API S3

PUT Objectคัดลอกไฟล์เท่านั้นดังนั้นคุณจะต้องลบไฟล์อย่างชัดเจนผ่านทางDELETE Objectภาพนิ่งหลังจากดำเนินการคัดลอกสำเร็จ แต่จะเป็นเพียงไม่กี่บรรทัดเมื่อสคริปต์โดยรวมที่จัดการถังและชื่อไฟล์อยู่ในตำแหน่ง (มีตัวอย่างตามลำดับเช่นกัน ดูเช่นการลบหนึ่งออบเจ็กต์ต่อคำขอ )

Question 3

AWS CLIใหม่อย่างเป็นทางการรองรับฟังก์ชันการทำงานส่วนใหญ่ของs3cmd. ก่อนหน้านี้ฉันใช้s3cmdหรือ Ruby AWS SDK เพื่อทำสิ่งนี้ แต่ CLI อย่างเป็นทางการใช้งานได้ดีสำหรับสิ่งนี้

http://docs.aws.amazon.com/cli/latest/reference/s3/sync.html

aws s3 sync s3://oldbucket s3://newbucket

Question 4

ผมใช้เวลาหลายวันในการเขียนเครื่องมือกำหนดเองของฉันจะคู่ขนานสำเนาที่จำเป็นสำหรับการนี้ แต่แล้วผมวิ่งข้ามเอกสารเกี่ยวกับวิธีการที่จะได้รับ AWS S3 CLI ซิงค์คำสั่งเพื่อประสานกับบุ้งกี๋ขนานใหญ่ คำสั่งต่อไปนี้จะบอก AWS CLI ให้ใช้ 1,000 เธรดเพื่อดำเนินการงาน (แต่ละไฟล์ขนาดเล็กหรือส่วนหนึ่งของสำเนาหลายส่วน) และมองไปข้างหน้า 100,000 งาน:

aws configure set default.s3.max_concurrent_requests 1000
aws configure set default.s3.max_queue_size 100000

หลังจากเรียกใช้สิ่งเหล่านี้คุณสามารถใช้คำสั่งซิงค์แบบง่ายดังนี้:

aws s3 sync s3://source-bucket/source-path s3://destination-bucket/destination-path

บนเครื่อง m4.xlarge (ใน AWS - 4 คอร์, RAM 16GB) สำหรับเคสของฉัน (ไฟล์ 3-50GB) ความเร็วในการซิงค์ / คัดลอกเปลี่ยนจากประมาณ 9.5MiB / s เป็น 700 + MiB / s ความเร็วเพิ่มขึ้น 70x เหนือการกำหนดค่าเริ่มต้น

อัปเดต: โปรดทราบว่า S3CMD ได้รับการอัปเดตในช่วงหลายปีที่ผ่านมาและการเปลี่ยนแปลงเหล่านี้จะมีผลเฉพาะเมื่อคุณทำงานกับไฟล์ขนาดเล็กจำนวนมาก โปรดทราบว่า S3CMD บน Windows (เฉพาะใน Windows) มีข้อ จำกัด อย่างมากในปริมาณงานโดยรวมและสามารถบรรลุได้ประมาณ 3Gbps ต่อกระบวนการเท่านั้นไม่ว่าคุณจะใช้ขนาดอินสแตนซ์หรือการตั้งค่าใด ระบบอื่น ๆ เช่น S5CMD ก็มีปัญหาเช่นเดียวกัน ฉันได้พูดคุยกับทีม S3 เกี่ยวกับเรื่องนี้แล้วและพวกเขากำลังตรวจสอบอยู่

Question 5

ในการย้าย / คัดลอกจากที่เก็บข้อมูลหนึ่งไปยังอีกที่หนึ่งหรือที่เก็บข้อมูลเดียวกันฉันใช้เครื่องมือ s3cmd และทำงานได้ดี ตัวอย่างเช่น:

s3cmd cp --recursive s3://bucket1/directory1 s3://bucket2/directory1
s3cmd mv --recursive s3://bucket1/directory1 s3://bucket2/directory1

Question 6

.NET ตัวอย่างตามที่ร้องขอ:

using (client)
{
    var existingObject = client.ListObjects(requestForExisingFile).S3Objects; 
    if (existingObject.Count == 1)
    {
        var requestCopyObject = new CopyObjectRequest()
        {
            SourceBucket = BucketNameProd,
            SourceKey = objectToMerge.Key,
            DestinationBucket = BucketNameDev,
            DestinationKey = newKey
        };
        client.CopyObject(requestCopyObject);
    }
}

กับลูกค้าเป็นสิ่งที่ชอบ

var config = new AmazonS3Config { CommunicationProtocol = Protocol.HTTP, ServiceURL = "s3-eu-west-1.amazonaws.com" };
var client = AWSClientFactory.CreateAmazonS3Client(AWSAccessKey, AWSSecretAccessKey, config);

อาจมีวิธีที่ดีกว่านี้ แต่เป็นเพียงรหัสด่วนที่ฉันเขียนเพื่อรับโอนไฟล์บางไฟล์

Question 7

หากคุณมีโฮสต์ unix ภายใน AWS ให้ใช้ s3cmd จาก s3tools.org ตั้งค่าการอนุญาตเพื่อให้คีย์ของคุณเป็นแบบอ่านเข้าถึงที่เก็บข้อมูลการพัฒนาของคุณ จากนั้นเรียกใช้:

s3cmd cp -r s3://productionbucket/feed/feedname/date s3://developmentbucket/feed/feedname

Question 8

สำหรับฉันคำสั่งต่อไปนี้ใช้งานได้:

aws s3 mv s3://bucket/data s3://bucket/old_data --recursive

Question 9

นี่คือคลาสทับทิมสำหรับการแสดงสิ่งนี้: https://gist.github.com/4080793

ตัวอย่างการใช้งาน:

$ gem install aws-sdk
$ irb -r ./bucket_sync_service.rb
> from_creds = {aws_access_key_id:"XXX",
                aws_secret_access_key:"YYY",
                bucket:"first-bucket"}
> to_creds = {aws_access_key_id:"ZZZ",
              aws_secret_access_key:"AAA",
              bucket:"first-bucket"}
> syncer = BucketSyncService.new(from_creds, to_creds)
> syncer.debug = true # log each object
> syncer.perform

Question 10

จริงๆแล้วเมื่อเร็ว ๆ นี้ฉันเพิ่งใช้การคัดลอก + วางในอินเทอร์เฟซ AWS s3 เพียงไปที่ไฟล์ที่คุณต้องการคัดลอกคลิก "การดำเนินการ" -> "คัดลอก" จากนั้นไปที่ที่เก็บข้อมูลปลายทางและ "การดำเนินการ" -> "วาง"

มันถ่ายโอนไฟล์ได้ค่อนข้างรวดเร็วและดูเหมือนว่าจะเป็นวิธีแก้ปัญหาที่ซับซ้อนน้อยกว่าซึ่งไม่จำเป็นต้องมีการเขียนโปรแกรมใด ๆ หรือมากกว่าโซลูชันชั้นนำเช่นนั้น

Question 11

เรามีปัญหาตรงนี้กับงาน ETL ของเราที่Snowplowดังนั้นเราจึงแยกโค้ดสำเนาไฟล์แบบขนาน (Ruby ที่สร้างขึ้นบนFog ) เป็นอัญมณี Ruby ของตัวเองที่เรียกว่า Sluice:

https://github.com/snowplow/sluice

Sluice ยังจัดการลบไฟล์ S3 ย้ายและดาวน์โหลด ขนานทั้งหมดและลองใหม่โดยอัตโนมัติหากการดำเนินการล้มเหลว (ซึ่งบ่อยครั้งที่น่าแปลกใจ) ฉันหวังว่ามันจะมีประโยชน์!

Question 12

ฉันรู้ว่านี่เป็นกระทู้เก่า แต่สำหรับคนอื่น ๆ ที่ไปถึงที่นั่นคำแนะนำของฉันคือสร้างงานตามกำหนดการเพื่อคัดลอกเนื้อหาจากที่เก็บข้อมูลการผลิตไปยังการพัฒนา

คุณสามารถใช้ If you use .NET บทความนี้อาจช่วยคุณได้

https://edunyte.com/2015/03/aws-s3-copy-object-from-one-bucket-or/

Question 13

สำหรับเวอร์ชันใหม่ aws2.2

aws2 s3 sync s3://SOURCE_BUCKET_NAME s3://NEW_BUCKET_NAME