สถิติและข้อมูลขนาดใหญ่ dataset

3

ฉันมักจะเห็นคนสร้างมิติ / คุณสมบัติของชุดข้อมูลให้มีค่าเป็นศูนย์โดยการลบค่าเฉลี่ยจากองค์ประกอบทั้งหมด แต่ฉันไม่เคยเข้าใจเลยว่าทำไมต้องทำเช่นนั้น? ผลของการทำเช่นนั้นเป็นขั้นตอน preprocessing คืออะไร มันปรับปรุงประสิทธิภาพการจำแนกประเภทหรือไม่? ช่วยตอบบางอย่างเกี่ยวกับชุดข้อมูลหรือไม่ มันช่วยได้หรือไม่เมื่อสร้างภาพข้อมูลเพื่อทำความเข้าใจกับข้อมูล?

12 data-mining dataset

2

เหตุใดบางคนทดสอบสมมติฐานตัวแบบถดถอยเหมือนกับข้อมูลดิบของพวกเขาและคนอื่น ๆ ทดสอบพวกเขาในส่วนที่เหลือ

ฉันเป็นนักศึกษาปริญญาเอกสาขาจิตวิทยาเชิงทดลองและฉันพยายามอย่างหนักเพื่อพัฒนาทักษะและความรู้เกี่ยวกับวิธีการวิเคราะห์ข้อมูลของฉัน จนกระทั่งปีที่ 5 ของฉันในด้านจิตวิทยาฉันคิดว่ารูปแบบการถดถอย (เช่น ANOVA) ถือว่าเป็นสิ่งต่อไปนี้: ความปกติของข้อมูล ความแปรปรวนเป็นเนื้อเดียวกันสำหรับข้อมูลและอื่น ๆ หลักสูตรระดับปริญญาตรีของฉันทำให้ฉันเชื่อว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อมูล อย่างไรก็ตามในปีที่ 5 ผู้สอนของฉันบางคนขีดเส้นใต้ข้อเท็จจริงที่ว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อผิดพลาด (ประมาณโดยค่าตกค้าง) และไม่ใช่ข้อมูลดิบ เมื่อเร็ว ๆ นี้ฉันกำลังพูดถึงคำถามสมมติฐานกับเพื่อนร่วมงานของฉันบางคนที่ยอมรับว่าพวกเขาค้นพบความสำคัญของการตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือเฉพาะในปีสุดท้ายของมหาวิทยาลัย ถ้าฉันเข้าใจดีโมเดลที่เหมือนการถดถอยจะทำให้ข้อสันนิษฐานผิดพลาด ดังนั้นจึงเหมาะสมที่จะตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือ ถ้าใช่ทำไมบางคนตรวจสอบสมมติฐานเกี่ยวกับข้อมูลดิบ? เป็นเพราะขั้นตอนการตรวจสอบดังกล่าวประมาณว่าเราจะได้อะไรจากการตรวจสอบสิ่งที่เหลืออยู่? ฉันจะขัดจังหวะด้วยความสงสัยเกี่ยวกับปัญหานี้กับบางคนที่มีความรู้ที่แม่นยำกว่าเพื่อนร่วมงานของฉันและฉันฉันขอขอบคุณล่วงหน้าสำหรับคำตอบของคุณ

12 regression dataset residuals assumptions

4

วิธีที่ดีที่สุดในการเก็บข้อมูลเพื่อการวิเคราะห์ทางสถิติใน R [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันใช้ไฟล์ข้อความเพื่อจัดเก็บข้อมูลของฉันสำหรับ R โดยไม่มีปัญหามาระยะหนึ่งแล้ว แต่สำหรับโครงการเมื่อเร็ว ๆ นี้ขนาดของไฟล์จะใหญ่เกินไปสำหรับไฟล์ข้อความแบบดิบที่จะจัดการ ทางเลือกง่ายๆที่ดีที่สุดคืออะไร

12 r dataset

1

ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom

หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

ตัวอย่างผลที่ตามมาราคาแพงจากการใช้เครื่องมือทางสถิติอย่างไม่เหมาะสม

ฉันสงสัยว่าผู้ใช้เครื่องมือทางสถิติส่วนใหญ่เป็นผู้ใช้เสริม (ผู้ที่มีการฝึกอบรมด้านสถิติอย่างเป็นทางการจนถึงไม่มีการฝึกอบรมเล็กน้อย) มันเป็นเรื่องดึงดูดสำหรับนักวิจัยและผู้เชี่ยวชาญด้านอื่น ๆ ที่จะใช้วิธีการทางสถิติกับข้อมูลของพวกเขาเพียงเพราะพวกเขาเห็นว่า "ทำมาก่อน" ในเอกสารที่ผ่านการตรวจสอบโดยผู้เขียนบทความวรรณกรรมสีเทาเว็บหรือการประชุม อย่างไรก็ตามการทำเช่นนั้นโดยไม่มีความเข้าใจที่ชัดเจนเกี่ยวกับสมมติฐานที่ต้องการและข้อ จำกัด ของเครื่องมือทางสถิติสามารถนำไปสู่ผลลัพธ์ที่ผิดพลาดได้ - ข้อผิดพลาดมักไม่ได้รับการยอมรับ! ฉันพบว่านักศึกษาระดับปริญญาตรี (โดยเฉพาะอย่างยิ่งในสังคมศาสตร์และวิทยาศาสตร์ธรรมชาติ) เป็นทั้งที่ไม่รู้ถึงความผิดพลาดทางสถิติหรือพบข้อผิดพลาดที่ไม่แน่นอนเหล่านี้ (ซึ่งส่วนใหญ่เป็นกรณีหลัง) แม้ว่าตัวอย่างของการใช้เครื่องมือทางสถิติอย่างไม่เหมาะสมสามารถพบได้ในหนังสือตำราระดับเบื้องต้นหลายเล่มเว็บหรือ StackExchange แต่ฉันมีเวลายากที่จะหาตัวอย่างในโลกแห่งความจริงที่มีผลลัพธ์ที่เป็นอันตราย (เช่นค่าใช้จ่ายในดอลลาร์ผลกระทบต่อชีวิตและอาชีพสูญหาย) . ด้วยเหตุนี้ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริงที่เน้นการใช้วิธีการทางสถิติที่ผิด: วิธีการทางสถิติที่ใช้มักจะกล่าวถึงในหลักสูตรสถิติเบื้องต้น (เช่นสถิติเชิงอนุมานการถดถอย ฯลฯ ... ) ผลลัพธ์ที่ได้มีผลกระทบค่าใช้จ่าย (ดอลลาร์หายไปชีวิตได้รับผลกระทบอาชีพแตก ฯลฯ ... ) ข้อมูลที่มีความพร้อมสำหรับการใช้งานเป็นตัวอย่างการทำงานในหลักสูตร (มีวัตถุประสงค์เพื่อให้นักเรียนทำงานผ่านตัวอย่างจริงของโลกที่มีผลกระทบโลกแห่งความจริง.) ตัวอย่างที่ไม่ใช่ทางสถิติอย่างหนึ่งที่ฉันต้องการนำมาให้นักเรียนเมื่อพูดคุยถึงความสำคัญของการกำหนดหน่วยในโครงการวิจัยอย่างถูกต้องคือ“ mishap metric”ที่นำไปสู่การสูญเสียดาวเทียม $ 125M! สิ่งนี้มักจะเรียกใช้: - ปัจจัยจากนักเรียนและดูเหมือนว่าจะมีความประทับใจยาวนาน (อย่างน้อยตลอดช่วงชีวิตการศึกษาสั้น ๆ )

12 dataset methodology

2

Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด

ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …

12 r dataset optimization discrete-data binning

2

แนวทางปฏิบัติที่ดีที่สุดสำหรับการสร้าง 'ข้อมูลที่เป็นระเบียบ'

Hadley Wickham เขียนบทความที่เป็นตัวเอกเรียกว่า "Tidy Data" ( ลิงก์ ) ใน JSS เมื่อปีที่แล้วเกี่ยวกับการจัดการข้อมูลและการนำข้อมูลเข้าสู่สภาพ "เหมาะสม" เพื่อทำการวิเคราะห์ อย่างไรก็ตามฉันสงสัยว่าวิธีปฏิบัติที่ดีที่สุดในแง่ของการนำเสนอข้อมูลแบบตารางในการทำงานคืออะไร สมมติว่าผู้ร่วมงานของคุณขอให้คุณให้ข้อมูลบางอย่างแก่เขา มีกฎทั่วไปอะไรบ้างที่คุณใช้เมื่อจัดโครงสร้างข้อมูลนั้น แนวทางใน "Tidy Data" ใช้ได้กับกรณีที่คุณแบ่งปันข้อมูลกับผู้เชี่ยวชาญที่ไม่ใช่ข้อมูลหรือไม่ เห็นได้ชัดว่านี่เป็นบริบทเฉพาะมาก แต่ฉันถามเกี่ยวกับ 'แนวทางปฏิบัติที่ดีที่สุด' ในระดับสูง

12 dataset tables

2

การแยกข้อมูลออกเป็นการทดสอบและการฝึกอบรมเป็นการกำหนด“ สถิติ” อย่างแท้จริงหรือไม่?

ฉันเป็นนักเรียนฟิสิกส์ที่เรียนการเรียนรู้ด้วยเครื่อง / วิทยาศาสตร์ข้อมูลดังนั้นฉันจึงไม่ได้หมายความว่าคำถามนี้จะเริ่มต้นความขัดแย้งใด ๆ :) อย่างไรก็ตามส่วนใหญ่ของหลักสูตรฟิสิกส์ระดับปริญญาตรีคือการทำห้องปฏิบัติการ / การทดลองซึ่งหมายถึงข้อมูลจำนวนมาก การประมวลผลและการวิเคราะห์ทางสถิติ อย่างไรก็ตามฉันสังเกตเห็นความแตกต่างที่ชัดเจนระหว่างวิธีที่นักฟิสิกส์จัดการกับข้อมูลและวิธีที่วิทยาศาสตร์ข้อมูล / หนังสือการเรียนรู้ทางสถิติจัดการกับข้อมูล ความแตกต่างที่สำคัญคือเมื่อพยายามทำการถดถอยกับข้อมูลที่ได้จากการทดลองทางฟิสิกส์อัลกอริธึมการถดถอยจะถูกนำไปใช้กับชุดข้อมูลWHOLEไม่มีการแยกชุดฝึกอบรมและชุดทดสอบออกมาอย่างแน่นอน ในโลกฟิสิกส์การคำนวณ R ^ 2 หรือการหลอกบางชนิด -R ^ 2 สำหรับแบบจำลองนั้นขึ้นอยู่กับชุดข้อมูลทั้งหมด ในโลกสถิติข้อมูลจะถูกแบ่งออกเป็น 80-20, 70-30 และอื่น ๆ ... จากนั้นโมเดลจะถูกประเมินเทียบกับชุดข้อมูลการทดสอบ นอกจากนี้ยังมีการทดลองทางฟิสิกส์ที่สำคัญ (ATLAS, BICEP2, ฯลฯ ... ) ที่ไม่เคยทำข้อมูลแยกดังนั้นฉันสงสัยว่าทำไมมันมีความแตกต่างอย่างรุนแรงระหว่างวิธีที่นักฟิสิกส์ / นักทดลองทำสถิติและวิธีที่นักวิทยาศาสตร์ด้านข้อมูล ทำสถิติ

11 regression machine-learning cross-validation dataset experiment-design

3

PCA แบบฝึกหัดช่วยสอนพร้อมข้อมูล

การค้นหาอินเทอร์เน็ตสำหรับการสอนแบบ PCA ให้ผลลัพธ์นับพันรายการ (แม้แต่วิดีโอ) บทเรียนจำนวนมากดีมาก แต่ฉันไม่สามารถหาตัวอย่างที่ใช้งานได้จริงใด ๆ ที่มีการอธิบาย PCA โดยใช้ชุดข้อมูลบางอย่างที่ฉันสามารถใช้สำหรับการสาธิต ฉันต้องการการสอนที่มีชุดข้อมูลขนาดเล็กซึ่งง่ายต่อการพล็อต (ไม่ใช่ 10,000 บรรทัดของข้อมูลที่มีมิติ 100s) ก่อนและหลังการวิเคราะห์ PCA และสามารถแสดงความแตกต่าง / ผลลัพธ์ได้อย่างชัดเจน (ฉันคิดว่าตัวอย่างการใช้งานจริงแบบทีละขั้นตอนโดยมีข้อมูลที่มีประมาณ 100 บรรทัดและ 3 มิตินั้นยอดเยี่ยม) คุณมีข้อเสนอแนะหรือไม่?

11 data-visualization dataset pca data-mining

14

คุณสามารถขุดข้อมูลได้มากเท่าไหร่?

ชื่อ: ก่อนอาจเป็นกึ่งกลางและนามสกุล ฉันอยากรู้ว่าคุณสามารถขุดข้อมูลได้มากแค่ไหนโดยใช้ชุดข้อมูลที่เปิดเผยต่อสาธารณะ ฉันรู้ว่าคุณสามารถรับสิ่งต่อไปนี้ได้ทุกที่ระหว่างความน่าจะเป็นต่ำ (ขึ้นอยู่กับอินพุต) โดยใช้ข้อมูลการสำรวจสำมะโนประชากรของสหรัฐ: 1) เพศ 2) การแข่งขัน ตัวอย่างเช่น Facebook ใช้เพื่อค้นหาว่าด้วยความแม่นยำในระดับที่เหมาะสมการกระจายทางเชื้อชาติของผู้ใช้เว็บไซต์ของพวกเขา (https://www.facebook.com/note.php?note_id=205925658858) มีอะไรอีกบ้างที่สามารถขุดได้? ฉันไม่ได้มองหาสิ่งใดเป็นพิเศษนี่เป็นคำถามปลายเปิดเพื่อระงับความอยากรู้อยากเห็นของฉัน ตัวอย่างของฉันเฉพาะในสหรัฐอเมริกาดังนั้นเราจะสมมติว่าชื่อนั้นเป็นชื่อของบุคคลที่อยู่ในสหรัฐอเมริกา แต่ถ้ามีคนรู้ว่าชุดข้อมูลที่เปิดเผยต่อสาธารณชนสำหรับประเทศอื่น ๆ ฉันก็เปิดกว้างกว่าเช่นกัน ฉันไม่แน่ใจว่านี่เป็นสถานที่ที่เหมาะสมสำหรับสิ่งนี้หรือไม่ถ้าไม่ฉันจะขอบคุณถ้ามีคนชี้ให้ฉันไปยังสถานที่ที่เหมาะสมกว่า ฉันหวังว่านี่เป็นคำถามที่น่าสนใจและนี่คือสถานที่ที่เหมาะสม!

11 dataset data-mining census

3

อัลกอริทึมใดที่ฉันควรใช้เพื่อจัดกลุ่มชุดข้อมูลไบนารีขนาดใหญ่เป็นไม่กี่หมวดหมู่

ฉันมีเมทริกซ์ขนาดใหญ่ (650K แถว * 62 คอลัมน์) ของข้อมูลไบนารี (รายการ 0-1 เท่านั้น) เมทริกซ์ส่วนใหญ่จะกระจัดกระจาย: เติมประมาณ 8% ฉันต้องการจัดกลุ่มเป็น 5 กลุ่ม - พูดชื่อตั้งแต่ 1 ถึง 5 ฉันได้ลองจัดกลุ่มแบบลำดับชั้นและไม่สามารถจัดการขนาดได้ ฉันยังใช้อัลกอริทึมการจัดกลุ่ม k - หมายถึงการคำนวณระยะทางด้วยการคำนึงถึงเวกเตอร์บิต 650K ที่มีความยาว 62 ฉันไม่ได้ผลลัพธ์ที่เหมาะสมกับสิ่งเหล่านี้ กรุณาช่วย.

11 clustering dataset k-means binary-data

3

หนังสือที่ดีครอบคลุมกระบวนการเตรียมข้อมูลและเทคนิคการตรวจหาค่าผิดปกติ

ใคร ๆ ก็รู้ว่าหนังสือทันสมัยที่ครอบคลุมข้อมูลก่อนการประมวลผลโดยทั่วไปและโดยเฉพาะอย่างยิ่งเทคนิคการตรวจหาค่าผิดปกติหรือไม่ หนังสือเล่มนี้ไม่จำเป็นต้องให้ความสำคัญกับเรื่องนั้นเป็นพิเศษ แต่ควรจัดการกับหัวข้อดังกล่าวอย่างละเอียดถี่ถ้วน - ฉันจะไม่พอใจกับสิ่งที่เป็นจุดเริ่มต้นและเสนอราคารายการเอกสารคำอธิบายเกี่ยวกับเทคนิคต่าง ๆ จะต้องปรากฏใน หนังสือตัวเอง เทคนิคในการจัดการกับข้อมูลที่หายไปที่ต้องการ แต่ไม่จำเป็น ...

11 dataset data-mining references outliers

4

"ชุดข้อมูล" มีความหมายอะไรกันแน่?

มันเป็นเพียงการรวมจุดข้อมูล? หรือมันคือการเป็นตัวแทนของจุดข้อมูลสำหรับองค์ประกอบที่แตกต่างกันในรูปแบบตารางจัดเรียงกับค่าของตัวแปรที่แตกต่างกันอย่างไร มันแตกต่างจากข้อมูลดิบอย่างไร

10 dataset terminology definition

1

การจัดการข้อมูลมีข้อผิดพลาด 'คิดราคา' ในการวิเคราะห์เชิงสถิติหรือไม่

ตกลงคำเตือนอย่างยุติธรรม - นี่เป็นคำถามเชิงปรัชญาที่ไม่เกี่ยวข้องกับตัวเลข ฉันได้คิดมากเกี่ยวกับข้อผิดพลาดที่คืบคลานเข้าไปในชุดข้อมูลเมื่อเวลาผ่านไปและวิธีการที่นักวิเคราะห์ควรปฏิบัติต่อ - หรือว่าควรจะมีความสำคัญอย่างไร สำหรับพื้นหลังฉันกำลังทำการวิเคราะห์เกี่ยวกับการศึกษาระยะยาวที่เกี่ยวข้องกับชุดข้อมูลจำนวนมากที่อาจถูกรวบรวมโดยคน 25 คนในช่วง 7-8 ปีที่ผ่านมา - ไม่มีใครเคยนำข้อมูลทั้งหมดมาสู่โครงสร้างที่สอดคล้องกัน (นั่นคืองานของฉัน) ฉันทำการป้อนข้อมูลจำนวนมาก (คัดลอกจากสมุดบันทึกของแล็บเก่า) และฉันก็พบข้อผิดพลาดเล็ก ๆ น้อย ๆ ที่คนอื่นทำรวมถึงการค้นหารายการข้อมูลที่อ่านยากหรือเป็นไปไม่ได้ส่วนใหญ่เป็นเพราะหมึก ได้จางหายไปเมื่อเวลาผ่านไป ฉันใช้บริบทเพื่อ 'คาดเดาที่ดีที่สุด' เกี่ยวกับสิ่งที่ข้อมูลพูดและออกจากจุดข้อมูลโดยสิ้นเชิงถ้าฉันไม่แน่ใจ แต่ฉันคิดถึงความจริงที่ว่าทุกครั้งที่มีการคัดลอกข้อมูลความถี่ของข้อผิดพลาดจะเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้จนกว่าข้อมูลต้นฉบับจะสูญหายอย่างสมบูรณ์ ดังนั้นสิ่งนี้ทำให้ฉันมีความคิด: นอกเหนือจากข้อผิดพลาดของเครื่องมือ / การวัดและข้อผิดพลาดในการบันทึกมีองค์ประกอบ 'ข้อผิดพลาดในการจัดการข้อมูลพื้นฐาน' ที่จะเพิ่มขึ้นเมื่อเวลาผ่านไปและด้วยการจัดการข้อมูลมากขึ้น อีกวิธีหนึ่งในการระบุกฎข้อที่ 2 ของอุณหพลศาสตร์ใช่ไหมเอนโทรปีของข้อมูลจะเพิ่มขึ้นเสมอ) ดังนั้นฉันสงสัยว่าควรมี 'การแก้ไข' ที่นำเสนอเพื่ออธิบายประวัติชีวิตของชุดข้อมูลหรือไม่ (คล้ายกับการแก้ไข Bonferroni) กล่าวอีกนัยหนึ่งเราควรสมมติว่าชุดข้อมูลที่เก่ากว่าหรือมากกว่าที่คัดลอกนั้นมีความแม่นยำน้อยกว่าและหากเป็นเช่นนั้น แต่แล้วความคิดอื่น ๆ ของฉันก็คือความผิดพลาดนั้นเป็นส่วนหนึ่งของการรวบรวมข้อมูลและการจัดการข้อมูลและเนื่องจากการทดสอบทางสถิติทั้งหมดได้รับการพัฒนาด้วยข้อมูลในโลกแห่งความจริงบางทีแหล่งที่มาของข้อผิดพลาดเหล่านี้ นอกจากนี้ประเด็นที่ควรกล่าวถึงอีกประการหนึ่งคือเนื่องจากข้อผิดพลาดของข้อมูลเป็นแบบสุ่มพวกเขามีแนวโน้มที่จะลดความแข็งแรงของการค้นพบมากกว่าที่จะปรับปรุง - กล่าวอีกนัยหนึ่งข้อผิดพลาดในการจัดการข้อมูลจะทำให้เกิดข้อผิดพลาดประเภทที่ 2 . ดังนั้นในบริบทจำนวนมากหากคุณกำลังใช้ข้อมูลเก่า …

10 dataset error

2

ควรจำแนกประเภทของข้อมูล (ชื่อ / ลำดับ / ช่วงเวลา / อัตราส่วน) จริงหรือไม่?

ตัวอย่างเช่นนี่คือคำจำกัดความที่ฉันได้รับจากหนังสือเรียนมาตรฐาน Variable - ลักษณะของประชากรหรือกลุ่มตัวอย่าง อดีต ราคาหุ้นหรือเกรดจากการทดสอบ ข้อมูล - ค่าที่สังเกตได้จริง ดังนั้นสำหรับรายงานสองคอลัมน์ [ชื่อ | รายได้] ชื่อคอลัมน์จะเป็นตัวแปรและค่าที่สังเกตได้จริง {dave | 100K}, {jim | 200K} จะเป็นข้อมูล ดังนั้นถ้าฉันบอกว่าคอลัมน์ [ชื่อ] เป็นข้อมูลที่ระบุและ [รายได้] เป็นข้อมูลอัตราส่วนฉันจะไม่ถูกต้องมากกว่าที่จะอธิบายว่ามันเป็นตัวแปรชนิดหนึ่งแทนที่จะเป็นประเภทข้อมูลที่ตำราเรียนส่วนใหญ่ทำหรือไม่ ฉันเข้าใจว่านี่อาจเป็นความหมายและก็ไม่เป็นไรนั่นคือทั้งหมดที่มีเช่นกัน แต่ฉันกลัวว่าฉันอาจจะพลาดบางสิ่งบางอย่างที่นี่

10 dataset ordinal-data categorical-data ratio

คำถามติดแท็ก dataset