คำถามติดแท็ก large-data

'ข้อมูลขนาดใหญ่' หมายถึงสถานการณ์ที่จำนวนการสังเกต (จุดข้อมูล) มีขนาดใหญ่จนจำเป็นต้องเปลี่ยนแปลงวิธีการที่นักวิเคราะห์ข้อมูลคิดหรือดำเนินการวิเคราะห์ (เพื่อไม่ให้สับสนกับ 'ความมีมิติสูง')

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
เราทำการวิเคราะห์ถดถอยแบบหลายตัวแปรด้วยค่าสัมประสิทธิ์ * ตัวแปร * / *
ฉันใช้เวลาเรียนรู้การเรียนรู้ของเครื่องจักร (ขออภัยสำหรับการเรียกซ้ำ :) และฉันอดไม่ได้ที่จะรู้สึกทึ่งกับกฎง่ายๆในการเลือก Gradient Descent ผ่านการแก้สมการโดยตรงสำหรับการคำนวณสัมประสิทธิ์การถดถอยในกรณีของการถดถอยเชิงเส้นหลายตัวแปร Rule of thumb: ถ้าจำนวนคุณสมบัติ (อ่านค่าสัมประสิทธิ์ / ตัวแปรอิสระ) อยู่ระหว่างหรือมากกว่าล้านไปกับ Gradient Descent การคำนวณเมทริกซ์ผกผันอื่นสามารถจัดการได้อย่างเป็นธรรมบนฮาร์ดแวร์สินค้าและทำให้การคำนวณสัมประสิทธิ์โดยตรงควรจะดีพอ .10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 ฉันพูดถึงสิ่งที่ได้รับจากการแลกเปลี่ยน / ข้อ จำกัด แต่จากมุมมองทางสถิติเราคำนวณแบบจำลองกับค่าสัมประสิทธิ์จำนวนมากที่เคยทำจริงหรือไม่? ถ้าฉันจำคลาสถดถอยเชิงเส้นหลายตัวแปรในโรงเรียนระดับประถมศึกษาเราได้รับคำเตือนให้ใช้ตัวแปรอิสระมากเกินไปเนื่องจากอาจมีผลกระทบเล็กน้อยต่อตัวแปรตามหรือการกระจายของพวกเขาจะไม่เป็นไปตามสมมติฐานที่เราทำเกี่ยวกับข้อมูล แม้ว่าผมจะไม่ขยายความคิดของฉันที่จะคิดว่า "เกลือจำนวนมาก" ผมยังไม่ได้คิดในล้าน คำถาม (s): สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่ จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่ หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV ฉันยังคงเชื่อเพียงเพราะเราสามารถวิเคราะห์ "ทุกอย่าง" ไม่ได้หมายความว่าเราควรโยนมันเข้าไปในตัวแก้ปัญหา (หรือทำ) และคำถามที่ผ่านมาบางคำถามของฉันสะท้อนถึง …

6
ตัวเลือกการวิเคราะห์ข้อมูลนอกหลัก
ฉันใช้ SAS อย่างมืออาชีพมาเกือบ 5 ปีแล้ว ฉันติดตั้งไว้ในแล็ปท็อปของฉันและต้องวิเคราะห์ชุดข้อมูลด้วยตัวแปร 1,000-2,000 ชุดและการสังเกตนับแสนครั้ง ฉันกำลังมองหาทางเลือกอื่นสำหรับ SAS ที่ให้ฉันทำการวิเคราะห์ในชุดข้อมูลขนาดใกล้เคียงกัน ฉันอยากรู้ว่าคนอื่นใช้อะไรในสถานการณ์เช่นนี้ นี่ไม่ใช่ "ข้อมูลขนาดใหญ่" ในลักษณะที่ใช้ในปัจจุบัน หรือชุดข้อมูลของฉันมีขนาดเล็กพอที่จะเก็บไว้ในหน่วยความจำ ฉันต้องการโซลูชันที่สามารถใช้อัลกอริทึมกับข้อมูลที่เก็บไว้ในฮาร์ดไดรฟ์ นี่คือสิ่งที่ฉันได้ตรวจสอบเพื่อประโยชน์: R - BigMemory สามารถสร้างเมทริกซ์ที่เก็บไว้นอกหน่วยความจำได้ แต่องค์ประกอบจะต้องเป็นโหมดเดียวกัน ฉันทำงานกับข้อมูลที่เกือบ 50/50 แยกระหว่างตัวละครและตัวเลข แพ็คเกจ FF เข้าใกล้สิ่งที่ฉันต้องการ แต่ฉันไม่เข้าใจเลยว่าขั้นตอนใดบ้างที่เข้ากันได้ ฉันคิดว่าการสนับสนุนค่อนข้าง จำกัด Pandas - ฉันตื่นเต้นมากเกี่ยวกับทางเลือก Pythonic กับ R อย่างไรก็ตามมันก็ต้องเก็บข้อมูลทั้งหมดไว้ในหน่วยความจำด้วย Revolution R - อันนี้แสดงค่อนข้างสัญญา ฉันมีสำเนาบนคอมพิวเตอร์ที่บ้านของฉัน (ฟรีหากคุณสมัคร Kaggle) และยังไม่ได้ทดสอบว่าเป็นทางเลือกที่ทำงานได้กับ SAS ความคิดเห็นเกี่ยวกับ Revolution …
18 r  sas  large-data 

5
การถดถอยปัวซองด้วยข้อมูลขนาดใหญ่: การเปลี่ยนหน่วยการวัดเป็นความผิดหรือไม่?
เนื่องจากแฟกทอเรียลในการแจกแจงปัวส์ซองมันไม่น่าเป็นไปได้ที่จะประเมินโมเดลปัวซอง (ตัวอย่างเช่นการใช้โอกาสสูงสุด) เมื่อการสังเกตมีขนาดใหญ่ ตัวอย่างเช่นถ้าฉันพยายามประเมินแบบจำลองเพื่ออธิบายจำนวนการฆ่าตัวตายในปีที่กำหนด (มีข้อมูลรายปีเท่านั้น) และพูดว่ามีการฆ่าตัวตายหลายพันคนทุกปีมันผิดหรือไม่ที่จะแสดงการฆ่าตัวตายเป็นร้อย ๆ ดังนั้น 2998 จะเป็น 29.98 ~ = 30? กล่าวอีกนัยหนึ่งการเปลี่ยนหน่วยการวัดเพื่อให้สามารถจัดการข้อมูลได้เป็นความผิดหรือไม่?

5
อัลกอริทึมออนไลน์สำหรับค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยและชุดข้อมูลขนาดใหญ่
ฉันมีปัญหาเล็กน้อยที่ทำให้ฉันประหลาดใจ ฉันต้องเขียนขั้นตอนสำหรับกระบวนการซื้อแบบออนไลน์ของอนุกรมเวลาหลายตัวแปร ในทุกช่วงเวลา (เช่น 1 วินาที) ฉันจะได้รับตัวอย่างใหม่ซึ่งโดยทั่วไปเป็นเวกเตอร์จุดลอยตัวของขนาด N การดำเนินการที่ฉันต้องทำค่อนข้างยุ่งยากเล็กน้อย: สำหรับตัวอย่างใหม่แต่ละอันฉันคำนวณเปอร์เซ็นต์สำหรับตัวอย่างนั้น (โดยการทำให้เวกเตอร์เป็นมาตรฐานเพื่อให้องค์ประกอบรวมเป็น 1) ฉันคำนวณเปอร์เซ็นต์เฉลี่ยของเวคเตอร์ในวิธีเดียวกัน แต่ใช้ค่าที่ผ่านมา สำหรับค่าในแต่ละครั้งที่ผ่านมาฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์ของเปอร์เซ็นต์เวกเตอร์ที่เกี่ยวข้องกับตัวอย่างนั้นกับค่าเฉลี่ยเวกเตอร์เปอร์เซ็นต์ส่วนกลางที่คำนวณได้ในขั้นตอนที่ 2 ด้วยวิธีนี้ค่าเบี่ยงเบนสัมบูรณ์จะเป็นจำนวนเสมอระหว่าง 0 (เมื่อเวกเตอร์เท่ากับค่าเฉลี่ย เวกเตอร์) และ 2 (เมื่อแตกต่างกันโดยสิ้นเชิง) การใช้ค่าเฉลี่ยของการเบี่ยงเบนสำหรับตัวอย่างก่อนหน้านี้ทั้งหมดฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยซึ่งเป็นตัวเลขอีกครั้งระหว่าง 0 ถึง 2 ฉันใช้การเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยเพื่อตรวจสอบว่าตัวอย่างใหม่เข้ากันได้กับตัวอย่างอื่น (โดยการเปรียบเทียบการเบี่ยงเบนสัมบูรณ์กับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยของทั้งชุดคำนวณในขั้นตอนที่ 4) เนื่องจากทุกครั้งที่มีการเก็บตัวอย่างใหม่จะมีการเปลี่ยนแปลงค่าเฉลี่ยทั่วโลก (และดังนั้นค่าเบี่ยงเบนสัมบูรณ์ที่เปลี่ยนแปลงเช่นกัน) มีวิธีคำนวณค่านี้โดยไม่สแกนข้อมูลทั้งหมดที่ตั้งไว้หลายครั้งหรือไม่ (หนึ่งครั้งสำหรับการคำนวณเปอร์เซ็นต์เฉลี่ยทั่วโลกและหนึ่งครั้งสำหรับการรวบรวมค่าเบี่ยงเบนสัมบูรณ์) ตกลงฉันรู้ว่ามันง่ายมากที่จะคำนวณค่าเฉลี่ยทั่วโลกโดยไม่ต้องสแกนทั้งชุดเนื่องจากฉันต้องใช้เวกเตอร์ชั่วคราวเพื่อเก็บผลรวมของแต่ละมิติ แต่สิ่งที่เกี่ยวกับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ย การคำนวณมันรวมถึงabs()โอเปอเรเตอร์ดังนั้นฉันจำเป็นต้องเข้าถึงข้อมูลที่ผ่านมาทั้งหมด! ขอบคุณสำหรับความช่วยเหลือของคุณ.

4
ฉันจะปรับปรุงการวิเคราะห์ผลกระทบของชื่อเสียงในการลงคะแนนได้อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้ทำการวิเคราะห์ผลกระทบของชื่อเสียงใน upvotes (ดูบล็อกโพสต์ ) และต่อมาฉันมีคำถามสองสามข้อเกี่ยวกับการวิเคราะห์และกราฟิกที่น่าสนใจยิ่งขึ้น (หรือเหมาะสมกว่า) ดังนั้นคำถามสองสามข้อ (และอย่าลังเลที่จะตอบสนองต่อใครโดยเฉพาะและไม่สนใจผู้อื่น): ในปัจจุบันชาติฉันไม่ได้หมายศูนย์หมายเลขโพสต์ ฉันคิดว่าสิ่งนี้จะให้ลักษณะที่ผิดพลาดของความสัมพันธ์เชิงลบใน scatterplot เนื่องจากมีการโพสต์มากขึ้นไปจนถึงระดับล่างสุดของการนับโพสต์ (คุณเห็นว่าสิ่งนี้ไม่ได้เกิดขึ้นในแผง Jon Skeet เฉพาะผู้ใช้ที่ตาย แผงหน้าปัด). มันไม่เหมาะสมที่จะไม่หมายถึงหมายเลขศูนย์โพสต์ (เพราะฉันหมายถึงคะแนนอยู่ตรงกลางต่อคะแนนเฉลี่ยของผู้ใช้)? ควรชัดเจนจากกราฟที่ให้คะแนนว่าเอียงขวาสูง (และค่าเฉลี่ยอยู่ตรงกลางไม่ได้เปลี่ยนแปลงสิ่งใด) เมื่อติดตั้งสายการถดถอยฉันพอดีทั้งตัวแบบเชิงเส้นและตัวแบบโดยใช้ข้อผิดพลาดที่ฮูเบอร์ - ไวท์ (ซึ่งrlmอยู่ในแพ็คเกจ MASS R ) และมันก็ไม่ได้สร้างความแตกต่างในการประมาณความชัน ฉันควรพิจารณาการแปลงเป็นข้อมูลแทนที่จะเป็นการถดถอยที่มีประสิทธิภาพหรือไม่ โปรดทราบว่าการเปลี่ยนแปลงใด ๆ จะต้องคำนึงถึงความเป็นไปได้ของ 0 และคะแนนลบ หรือฉันควรใช้รูปแบบชนิดอื่นเพื่อนับข้อมูลแทน OLS หรือไม่ ฉันเชื่อว่ากราฟิกสองตัวสุดท้ายโดยทั่วไปสามารถปรับปรุงได้ (และเกี่ยวข้องกับกลยุทธ์การสร้างแบบจำลองที่ดีขึ้นเช่นกัน) ในความเห็นของฉัน (ฉันเบื่อ) ฉันจะสงสัยว่าผลกระทบของชื่อเสียงเป็นจริงพวกเขาจะได้รับรู้ล่วงหน้าในประวัติผู้โพสต์ (ฉันคิดว่าถ้าเป็นจริงสิ่งเหล่านี้อาจได้รับการพิจารณาใหม่ "คุณให้คำตอบที่ดีเยี่ยม โพสต์ผลกระทบ "แทน" ชื่อเสียงโดยคะแนนรวม …

5
วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก
ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?

4
ช่วงความเชื่อมั่นเมื่อขนาดตัวอย่างใหญ่มาก
คำถามของฉันสามารถใช้ถ้อยคำใหม่เป็น "วิธีการประเมินข้อผิดพลาดการสุ่มตัวอย่างโดยใช้ข้อมูลขนาดใหญ่" โดยเฉพาะอย่างยิ่งสำหรับสิ่งพิมพ์วารสาร นี่คือตัวอย่างที่แสดงให้เห็นถึงความท้าทาย จากชุดข้อมูลที่มีขนาดใหญ่มาก (ผู้ป่วยที่ไม่ซ้ำกันมากกว่า 100,000 รายและยาที่กำหนดจากโรงพยาบาล 100 แห่ง) ฉันสนใจที่จะประเมินสัดส่วนของผู้ป่วยที่ทานยาโดยเฉพาะ มันตรงไปตรงมาเพื่อให้ได้สัดส่วนนี้ ช่วงความเชื่อมั่นของมัน (เช่นพารามิเตอร์หรือ bootstrap) แน่น / แคบอย่างไม่น่าเชื่อเพราะ n มีขนาดใหญ่มาก ในขณะที่โชคดีที่มีตัวอย่างขนาดใหญ่ฉันยังคงค้นหาวิธีการประเมินนำเสนอและ / หรือแสดงภาพความน่าจะเป็นข้อผิดพลาดบางรูปแบบ ในขณะที่ดูเหมือนว่าไม่ช่วยเหลือ (ถ้าไม่ทำให้เข้าใจผิด) เพื่อใส่ / แสดงช่วงความเชื่อมั่น (เช่น 95% CI: .65878 - .65881) แต่ก็ดูเหมือนว่าเป็นไปไม่ได้ที่จะหลีกเลี่ยงบางข้อความเกี่ยวกับความไม่แน่นอน โปรดแจ้งให้เราทราบว่าคุณคิดอย่างไร ฉันจะขอบคุณวรรณกรรมใด ๆ ในหัวข้อนี้ วิธีในการหลีกเลี่ยงความมั่นใจในข้อมูลแม้จะมีกลุ่มตัวอย่างขนาดใหญ่

3
วิธีการสร้างแบบจำลองข้อมูลขนาดใหญ่ยาว?
ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่ ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่ เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ …

3
คลัสเตอร์ข้อมูลขนาดใหญ่ใน R และการสุ่มตัวอย่างมีความเกี่ยวข้องหรือไม่
ฉันยังใหม่กับวิทยาศาสตร์ข้อมูลและมีปัญหาในการค้นหากลุ่มในชุดข้อมูลที่มี 200,000 แถวและ 50 คอลัมน์ใน R เนื่องจากข้อมูลมีทั้งตัวเลขและตัวแปรที่กำหนดวิธีการแบบ K-mean ซึ่งใช้การวัดระยะทางแบบยุคลิดจึงไม่เป็นทางเลือกที่เหมาะสม ดังนั้นฉันจึงหันไปหา PAM แอกเนสและ hclust ซึ่งยอมรับเมทริกซ์ระยะทางเป็นอินพุต วิธีเดซี่สามารถทำงานกับข้อมูลแบบผสม แต่เมทริกซ์ระยะทางนั้นใหญ่เกินไป: 200,000 เท่า 200,000 มีขนาดใหญ่กว่า 2 ^ 31-1 มาก (ขีด จำกัด ความยาวเวกเตอร์ก่อน R 3.0.0) R 3.0.0 ใหม่ที่เผยแพร่เมื่อวานนี้รองรับเวกเตอร์ยาวที่มีความยาวมากกว่า 2 ^ 31-1 แต่เมทริกซ์สองเท่าของ 200,000 โดย 200,000 ต้องใช้ RAM ต่อเนื่องที่มีขนาดใหญ่กว่า 16Gb ซึ่งเป็นไปไม่ได้ในเครื่องของฉัน ฉันอ่านเกี่ยวกับการคำนวณแบบขนานและแพ็คเกจหน่วยความจำขนาดใหญ่และไม่แน่ใจว่าพวกเขาจะช่วยได้อย่างไร: ถ้าฉันใช้เดซี่มันจะสร้างเมทริกซ์ขนาดใหญ่ที่ไม่สามารถใส่หน่วยความจำได้ ฉันยังอ่านเกี่ยวกับการโพสต์เกี่ยวกับการสุ่มตัวอย่าง: การสุ่มตัวอย่างมีความเกี่ยวข้องในช่วงเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่ …

5
ทำไมการไล่ระดับสีที่ไม่มีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่?
สมมติว่าชุดข้อมูลของเรามีตัวอย่าง 1 ล้านตัวอย่างเช่นและเราต้องการใช้การไล่ระดับสีแบบไล่ระดับเพื่อทำการโลจิสติกหรือการถดถอยเชิงเส้นบนชุดข้อมูลเหล่านี้x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} อะไรคือวิธีการไล่ระดับสีที่ทำให้มันไม่มีประสิทธิภาพ? จำได้ว่าขั้นตอนการไล่ระดับสีในเวลามอบให้โดย:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) โดยที่คือฟังก์ชันการสูญเสียfff ฉันไม่เห็นอะไรผิดปกติกับขั้นตอนข้างต้นที่ทำให้อัลกอริทึมไม่มีประสิทธิภาพ มันเป็นการคำนวณของหรือไม่? การดำเนินการนี้ไม่สามารถคำนวณได้ล่วงหน้าเช่นคำนวณแล้วและประเมินได้ที่แต่ละจุดข้อมูล∂ f∇f(x)∇f(x)\nabla f(x) xฉัน?∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

1
สามารถรองรับเครื่องเวกเตอร์ในข้อมูลขนาดใหญ่ได้หรือไม่?
ด้วยความรู้ที่ จำกัด ที่ฉันมีใน SVM มันเป็นสิ่งที่ดีสำหรับเมทริกซ์ข้อมูลแบบสั้นและอ้วน (มีคุณสมบัติมากมายและไม่มากเกินไป) แต่ไม่ใช่สำหรับข้อมูลขนาดใหญ่XXX ผมเข้าใจเหตุผลหนึ่งคือ Kernel Matrix เป็นn × nเมทริกซ์ที่nคือจำนวนของอินสแตนซ์ในข้อมูล ถ้าเรามีการพูด, 100K ข้อมูลเคอร์เนลเมทริกซ์Kจะมี10 10องค์ประกอบและอาจต้องใช้เวลาความทรงจำที่ ~ 80GKKKn × nn×nn \times nnnnKKK1010101010^{10} มีการดัดแปลง SVM ที่สามารถใช้กับข้อมูลขนาดใหญ่ได้หรือไม่? (พูดในระดับคะแนนข้อมูล 100K ถึง 1M ใช่ไหม)

3
วิธีการรันการถดถอยเชิงเส้นในแบบคู่ขนาน / กระจายสำหรับการตั้งค่าข้อมูลขนาดใหญ่?
ฉันกำลังทำงานกับปัญหาการถดถอยเชิงเส้นที่มีขนาดใหญ่มากด้วยขนาดข้อมูลที่ใหญ่จนพวกเขาต้องถูกเก็บไว้ในกลุ่มของเครื่อง มันจะใหญ่เกินไปที่จะรวมตัวอย่างทั้งหมดไว้ในหน่วยความจำของเครื่องเดียว (แม้แต่ดิสก์) เมื่อต้องการถดถอยข้อมูลเหล่านี้ฉันกำลังคิดถึงวิธีการแบบขนานนั่นคือเรียกใช้การถดถอยในแต่ละกล่องแล้วคำนวณค่าเบต้าตามสถิติของแต่ละเบต้าแต่ละตัว (อาจเป็นค่าเฉลี่ยหรือค่ามัธยฐาน) สิ่งนี้สมเหตุสมผลหรือไม่? ถ้าเป็นเช่นนั้นวิธีการที่ฉันควรจะได้รับทั้งหมดที่คาดว่าจะR2R2R^2จากแต่ละR2R2R^2 ?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Goodness-of-fit สำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่มาก
ฉันรวบรวมตัวอย่างที่มีขนาดใหญ่มาก (> 1,000,000) ของข้อมูลที่จัดหมวดหมู่ในแต่ละวันและต้องการดูข้อมูลที่ดูแตกต่างกันอย่างมากระหว่างวันเพื่อตรวจหาข้อผิดพลาดในการรวบรวมข้อมูล ฉันคิดว่าการใช้การทดสอบแบบพอดี (โดยเฉพาะการทดสอบแบบ G) จะเป็นแบบทดสอบที่ดี การกระจายที่คาดหวังจะได้รับจากการกระจายของวันก่อนหน้า แต่เนื่องจากขนาดตัวอย่างของฉันมีขนาดใหญ่มากการทดสอบจึงมีพลังสูงมากและให้ผลบวกผิด ๆ มากมาย กล่าวคือแม้แต่ความผันผวนรายวันที่น้อยมากก็จะให้ค่า p ใกล้ศูนย์ ฉันสิ้นสุดการคูณสถิติการทดสอบของฉันด้วยค่าคงที่ (0.001) ซึ่งมีการตีความที่ดีของการสุ่มตัวอย่างข้อมูลในอัตรานั้น บทความนี้ดูเหมือนจะเห็นด้วยกับวิธีนี้ พวกเขาพูดว่า: จัตุรัสจิ่วเป็นที่น่าเชื่อถือที่สุดโดยมีกลุ่มตัวอย่างประมาณ 100 ถึง 2,500 คน ฉันกำลังมองหาความคิดเห็นที่เชื่อถือได้เพิ่มเติมเกี่ยวกับเรื่องนี้ หรืออาจเป็นทางเลือกในการแก้ปัญหาผลบวกปลอมเมื่อรันการทดสอบทางสถิติกับชุดข้อมูลขนาดใหญ่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.