คำถามติดแท็ก large-data

'ข้อมูลขนาดใหญ่' หมายถึงสถานการณ์ที่จำนวนการสังเกต (จุดข้อมูล) มีขนาดใหญ่จนจำเป็นต้องเปลี่ยนแปลงวิธีการที่นักวิเคราะห์ข้อมูลคิดหรือดำเนินการวิเคราะห์ (เพื่อไม่ให้สับสนกับ 'ความมีมิติสูง')

1
การทดสอบชุดข้อมูลขนาดใหญ่เพื่อหาข้อได้เปรียบ - อย่างไรและเชื่อถือได้อย่างไร?
ฉันกำลังตรวจสอบส่วนหนึ่งของชุดข้อมูลของฉันที่มีค่าสองเท่า 46840 ตั้งแต่ 1 ถึง 1690 จัดกลุ่มในสองกลุ่ม เพื่อที่จะวิเคราะห์ความแตกต่างระหว่างกลุ่มเหล่านี้ฉันเริ่มต้นด้วยการตรวจสอบการกระจายของค่าเพื่อเลือกการทดสอบที่ถูกต้อง ทำตามคำแนะนำในการทดสอบความเป็นมาตรฐานฉันทำ qqplot, histogram & boxplot นี่ดูเหมือนจะไม่ใช่การแจกแจงแบบปกติ เนื่องจากไกด์ระบุค่อนข้างถูกต้องว่าการตรวจสอบเชิงกราฟิกล้วนไม่เพียงพอฉันจึงต้องการทดสอบการแจกแจงแบบปกติ เมื่อพิจารณาถึงขนาดของชุดข้อมูลและข้อ จำกัด ของการทดสอบ shapiro-wilks ใน R แล้วการแจกแจงที่ให้มาจะถูกทดสอบเพื่อความเป็นมาตรฐานและพิจารณาขนาดของชุดข้อมูลเป็นสิ่งที่น่าเชื่อถือหรือไม่ ( ดูคำตอบที่ยอมรับสำหรับคำถามนี้ ) แก้ไข: ข้อ จำกัด ของการทดสอบ Shapiro-Wilk ที่ฉันอ้างถึงคือชุดข้อมูลที่จะทดสอบนั้น จำกัด ไว้ที่ 5,000 คะแนน หากต้องการอ้างอิงคำตอบที่ดีอีกข้อเกี่ยวกับหัวข้อนี้: ปัญหาเพิ่มเติมของการทดสอบของ Shapiro-Wilk คือเมื่อคุณป้อนข้อมูลเพิ่มเติมโอกาสในการปฏิเสธสมมติฐานที่ใหญ่กว่านั้นจะกลายเป็นเรื่องใหญ่ ดังนั้นสิ่งที่เกิดขึ้นก็คือสำหรับข้อมูลจำนวนมากแม้จะตรวจพบความเบี่ยงเบนเล็ก ๆ น้อย ๆ จากภาวะปกติซึ่งนำไปสู่การปฏิเสธเหตุการณ์สมมติฐานว่างสำหรับการใช้งานจริงข้อมูลนั้นมากกว่าปกติพอ [... ] โชคดีที่ shapiro.test ปกป้องผู้ใช้จากเอฟเฟกต์ที่อธิบายข้างต้นโดย จำกัด …

4
การทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่
คุณจะทำการทดสอบสมมติฐานด้วยข้อมูลขนาดใหญ่ได้อย่างไร ฉันเขียนสคริปต์ MATLAB ต่อไปนี้เพื่อเน้นความสับสนของฉัน สิ่งที่มันทำคือสร้างชุดสุ่มสองชุดและเรียกใช้การถดถอยเชิงเส้นอย่างง่ายของตัวแปรหนึ่งในอีกตัวแปรหนึ่ง จะดำเนินการถดถอยนี้หลายครั้งโดยใช้ค่าสุ่มที่แตกต่างกันและรายงานค่าเฉลี่ย สิ่งที่เกิดขึ้นคือเมื่อฉันเพิ่มขนาดตัวอย่างค่า p โดยเฉลี่ยจะน้อยมาก ฉันรู้ว่าเนื่องจากพลังของการทดสอบเพิ่มขึ้นตามขนาดตัวอย่างเมื่อได้รับตัวอย่างมากพอค่า p จะมีขนาดเล็กพอแม้จะมีข้อมูลแบบสุ่มเพื่อปฏิเสธการทดสอบสมมติฐานใด ๆ ฉันถามไปรอบ ๆ และบางคนบอกว่าด้วย 'ข้อมูลขนาดใหญ่' สำคัญกว่าที่จะดูขนาดเอฟเฟกต์เช่น การทดสอบนั้นสำคัญหรือไม่และมีผลกระทบมากพอที่เราจะสนใจหรือไม่ นี้เป็นเพราะในขนาดตัวอย่างที่มีขนาดใหญ่ P-ค่าจะรับความแตกต่างของขนาดเล็กมากเหมือนมันจะมีการอธิบายที่นี่ อย่างไรก็ตามขนาดของเอฟเฟกต์สามารถกำหนดได้โดยการปรับขนาดของข้อมูล ด้านล่างฉันปรับขนาดตัวแปรอธิบายให้มีขนาดเล็กพอที่ให้ขนาดตัวอย่างใหญ่พอมันมีผลอย่างมากต่อตัวแปรตาม ดังนั้นฉันสงสัยว่าเราจะได้รับข้อมูลเชิงลึกจาก Big Data ได้อย่างไรหากปัญหาเหล่านี้มีอยู่ %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, …

1
เมื่อใดที่ฉันจะหยุดมองหานางแบบ?
ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558) ราคา / วัน นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี ตัวอย่างของสภาพอากาศ 3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ …

1
การจัดการชุดข้อมูลขนาดใหญ่ในแบบฝึกหัดแนวปฏิบัติที่เหมาะสม ฯลฯ
ฉันเป็น Noob R ที่จำเป็นต้องทำการวิเคราะห์ชนิดต่าง ๆ บนชุดข้อมูลขนาดใหญ่ใน R ดังนั้นเมื่อมองไปรอบ ๆ ไซต์นี้และที่อื่น ๆ ปรากฏว่าสำหรับฉันมีปัญหาลึกลับและเป็นที่รู้จักน้อยมากที่เกี่ยวข้องกับที่นี่ - แพคเกจที่จะใช้เมื่อใดการแปลงเป็น (ไม่) ใช้กับข้อมูล ฯลฯ ฉันแค่สงสัยว่ามีหนังสือ / กวดวิชา / คู่มือที่ demystifies ทั้งหมดนี้และนำเสนอข้อมูลอย่างเป็นระบบหรือไม่? ฉันชอบทำสิ่งนี้แทนที่จะมองไปรอบ ๆ และรวบรวมข้อมูลจากแหล่งต่าง ๆ ทางออนไลน์ ขอบคุณล่วงหน้า.
11 r  large-data 

1
PCA ขนาดใหญ่เป็นไปได้หรือไม่
การวิเคราะห์องค์ประกอบหลัก (PCA) แบบคลาสสิกคือการทำบนเมทริกซ์ข้อมูลอินพุตซึ่งคอลัมน์มีค่าเฉลี่ยเป็นศูนย์ (จากนั้น PCA สามารถ "เพิ่มความแปรปรวนสูงสุด") สามารถทำได้อย่างง่ายดายโดยการจัดคอลัมน์ให้อยู่ตรงกลาง Howenver เมื่อเมทริกซ์การป้อนข้อมูลเบาบางเมทริกซ์กึ่งกลางตอนนี้จะเบาบางอีกต่อไปและ - ถ้าเมทริกซ์มีขนาดใหญ่มาก - ดังนั้นจะไม่พอดีกับหน่วยความจำอีกต่อไป มีวิธีแก้ปัญหาอัลกอริทึมสำหรับปัญหาการจัดเก็บหรือไม่?

3
การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่
ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma …

2
มันสมเหตุสมผลหรือไม่ที่จะคำนวณช่วงความมั่นใจและเพื่อทดสอบสมมติฐานเมื่อมีข้อมูลจากประชากรทั้งหมด
มันสมเหตุสมผลหรือไม่ที่จะคำนวณช่วงความมั่นใจและเพื่อทดสอบสมมติฐานเมื่อมีข้อมูลจากประชากรทั้งหมด ในความคิดของฉันคำตอบคือไม่เนื่องจากเราสามารถคำนวณค่าที่แท้จริงของพารามิเตอร์ได้อย่างถูกต้อง แต่แล้วสัดส่วนสูงสุดของข้อมูลจากประชากรดั้งเดิมที่อนุญาตให้เราใช้เทคนิคดังกล่าวคืออะไร?

3
วิธีการดูข้อมูลอนุกรมเวลาขนาดใหญ่แบบโต้ตอบ?
ฉันมักจะจัดการกับข้อมูลอนุกรมเวลาที่มีขนาดพอสมควรจำนวน 50-200 ล้านคู่กับการประทับเวลาที่เกี่ยวข้องและต้องการเห็นภาพเหล่านั้นแบบไดนามิก มีซอฟต์แวร์ที่มีอยู่ให้ทำอย่างมีประสิทธิภาพหรือไม่ ห้องสมุดและรูปแบบข้อมูลเป็นอย่างไร Zoom-cacheเป็นตัวอย่างหนึ่งของการมุ่งเน้นไปที่อนุกรมเวลาขนาดใหญ่ ในซูมแคชข้อมูลสรุปที่ความละเอียดหลายอย่างเพื่อให้ง่ายต่อการดูที่ความละเอียดที่แตกต่างกัน แก้ไข: หากมีที่อื่นฉันควรถามคำถามนี้หรือค้นหาคำตอบโปรดแจ้งให้เราทราบ

1
การจัดการกับชุดข้อมูลอนุกรมเวลาที่มีขนาดใหญ่มาก
ฉันสามารถเข้าถึงชุดข้อมูลที่มีขนาดใหญ่มาก ข้อมูลมาจากการบันทึกMEGของผู้คนที่ฟังเพลงที่ตัดตอนมาจากหนึ่งในสี่ประเภท ข้อมูลมีดังนี้: 6 วิชา 3 การทดลองซ้ำ (ตอน) 120 การทดลองต่อยุค 8 วินาทีของข้อมูลต่อการทดลองที่ 500Hz (= 4000 ตัวอย่าง) จาก 275 MEG channel ดังนั้น "ตัวอย่าง" นี่คือเมทริกซ์ขนาด [4000x275] และมีตัวอย่าง 2160 ตัวอย่างและนั่นคือก่อนการแยกคุณลักษณะใด ๆ เป้าหมายคือการทำนายประเภทตามสัญญาณสมอง (การจำแนก 4 ระดับ) เห็นได้ชัดว่ามีบางประเด็นที่ท้าทายที่นี่คือ: ชุดข้อมูลไม่พอดีกับหน่วยความจำ ข้อมูลจะมีความสัมพันธ์ทางโลกที่แข็งแกร่งและความแปรผันระหว่างหัวข้อจะมีขนาดใหญ่มาก ดังนั้นจึงไม่ชัดเจนว่าจะแบ่งข้อมูลอย่างไร อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก ไม่ชัดเจนว่าคุณสมบัติที่ถูกต้องสำหรับตัวจําแนกจะเป็นอย่างไร สิ่งเหล่านี้ในทางกลับกัน: มีหลายสิ่งที่เราทำได้ ประการแรกเราสามารถลดตัวอย่างได้อย่างปลอดภัยจาก 500Hz ถึง ~ 200Hz แม้ว่าการ จำกัด Nyquist เข้าบัญชีกิจกรรมสมองไม่ได้เกิดขึ้นจริงที่ 100Hz …

3
วิธีการเมื่อเรียนรู้จากชุดข้อมูลขนาดใหญ่?
โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่): การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?

1
K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง
ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์ ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่ ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?

2
การถดถอยแบบเกาส์กระบวนการสำหรับชุดข้อมูลมิติสูง
แค่อยากจะดูว่าใครมีประสบการณ์ใด ๆ ที่ใช้การถดถอยแบบเกาส์กระบวนการ (GPR) กับชุดข้อมูลมิติสูง ฉันกำลังดูวิธีการ GPR แบบกระจัดกระจายบางอย่าง (เช่นแบบ spse pseudo-inputs GPR) เพื่อดูว่าอะไรสามารถใช้งานได้กับชุดข้อมูลมิติสูงที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของกระบวนการเลือกพารามิเตอร์ ข้อเสนอแนะใด ๆ เกี่ยวกับเอกสาร / รหัส / หรือวิธีการต่างๆที่จะลองแน่นอนชื่นชม ขอบคุณ

2
การลดขนาดที่ปรับขนาดได้
พิจารณาจำนวนของคุณสมบัติคงที่บาร์นส์ฮัทเสื้อ SNEมีความซับซ้อนของ , ประมาณการสุ่มและ PCA มีความซับซ้อนของทำให้พวกเขา "แพง" สำหรับชุดข้อมูลขนาดใหญ่มากO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)O ( n )O(n)O(n) ในทางกลับกันวิธีการที่ใช้การวัดหลายมิติมีความซับซ้อนโอ (n2)O(n2)O(n^2) มีเทคนิคการลดขนาดอื่น ๆ (นอกเหนือจากสิ่งเล็กน้อยเช่นการดูคอลัมน์แรก) ซึ่งมีความซับซ้อนต่ำกว่าหรือไม่kkkO ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n\log n)

6
อัลกอริทึมการเรียนรู้ของเครื่องใดที่สามารถปรับขนาดได้โดยใช้ hadoop / map-ลด
อัลกอริทึมการเรียนรู้ของเครื่องที่ปรับขนาดได้ดูเหมือนจะเป็นที่นิยมในทุกวันนี้ ทุก บริษัท มีการจัดการอะไรสั้น ๆ ของข้อมูลขนาดใหญ่ มีหนังสือเรียนเล่มหนึ่งหรือไม่ที่พูดถึงสิ่งที่กลไกการเรียนรู้ของเครื่องสามารถปรับขนาดโดยใช้สถาปัตยกรรมแบบขนานเช่น Map-Reduce และอัลกอริทึมใดที่ไม่สามารถทำได้? หรือเอกสารที่เกี่ยวข้อง?

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.