สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
บางคำถามเกี่ยวกับการสุ่มทางสถิติ
จากความแร้นแค้นทางสถิติของ Wikipedia : การสุ่มทั่วโลกและการสุ่มในท้องถิ่นนั้นแตกต่างกัน แนวคิดเชิงปรัชญาส่วนใหญ่เกี่ยวกับการสุ่มนั้นเป็นสากล - เพราะพวกมันอยู่บนพื้นฐานความคิดที่ว่า "ในระยะยาว" ลำดับนั้นดูสุ่มอย่างแท้จริงแม้ว่าบางลำดับย่อยจะไม่ดูสุ่ม ในการสุ่มตัวเลขที่มีความยาวเพียงพออย่างแท้จริงอาจเป็นไปได้ว่าจะมีการเรียงลำดับแบบยาวของศูนย์ แต่ในทั้งลำดับอาจเป็นแบบสุ่ม Local Randomness หมายถึงแนวคิดที่ว่าสามารถมีความยาวของลำดับขั้นต่ำที่การแจกแจงแบบสุ่มจะถูกประมาณแม้แต่ตัวเลขที่สร้างขึ้นโดยกระบวนการสุ่มอย่างแท้จริงจะลด "การสุ่มแบบท้องถิ่น" ของตัวอย่าง (มันอาจเป็นแบบสุ่มเฉพาะที่สำหรับลำดับ 10,000 หลัก แต่การวนน้อยกว่า 1,000 อาจไม่ปรากฏแบบสุ่ม ตัวอย่างเช่นทั้งหมด) ลำดับที่แสดงรูปแบบจึงไม่ได้รับการพิสูจน์ว่าไม่สุ่มทางสถิติ ตามหลักการของทฤษฎีแรมซีย์วัตถุขนาดใหญ่อย่างเพียงพอจะต้องมีโครงสร้างพื้นฐานที่กำหนด ("ความไม่สมบูรณ์สมบูรณ์เป็นไปไม่ได้") ฉันไม่เข้าใจความหมายของประโยคทั้งสองเป็นตัวหนา ประโยคแรกหมายความว่ามีบางสิ่งที่ทำให้เกิดการสุ่มตามลำดับที่ความยาวมากกว่าและไม่ใช่การสุ่มแบบท้องถิ่นที่ความยาวสั้นกว่าหรือไม่ ตัวอย่างในวงเล็บทำงานอย่างไร ประโยคที่สองหมายความว่าลำดับที่แสดงรูปแบบไม่สามารถพิสูจน์ได้ว่าไม่ได้สุ่มตัวอย่างเชิงสถิติหรือไม่? ทำไม? ขอบคุณ

1
การถดถอยข้อผิดพลาดในตัวแปร: ใช้ได้กับพูลข้อมูลจากสามไซต์หรือไม่
ฉันเพิ่งมีลูกค้ามาให้ฉันทำการวิเคราะห์ bootstrap เพราะผู้ตรวจสอบ FDA บอกว่าการถดถอยข้อผิดพลาดในตัวแปรของพวกเขาไม่ถูกต้องเพราะเมื่อรวบรวมข้อมูลจากไซต์การวิเคราะห์รวมถึงการรวมข้อมูลจากสามไซต์ที่สองไซต์รวมตัวอย่างบางอย่าง เหมือน. พื้นหลัง ลูกค้ามีวิธีการทดสอบใหม่ที่ต้องการแสดงคือ "เทียบเท่า" กับวิธีที่ได้รับอนุมัติแล้ว วิธีการของพวกเขาคือการเปรียบเทียบผลลัพธ์ของทั้งสองวิธีที่ใช้กับตัวอย่างเดียวกัน สามไซต์ถูกใช้เพื่อทำการทดสอบ ข้อผิดพลาดในตัวแปร (Deming regression) ถูกนำไปใช้กับข้อมูลในแต่ละไซต์ แนวคิดก็คือว่าหากการถดถอยแสดงให้เห็นว่าพารามิเตอร์ของความชันนั้นใกล้เคียงกับ 1 และการสกัดกั้นใกล้ 0 นี่จะแสดงให้เห็นว่าเทคนิคการทดสอบทั้งสองนั้นให้ผลลัพธ์เกือบเหมือนกันดังนั้นจึงควรได้รับการอนุมัติวิธีการใหม่ ที่ไซต์ 1 มีตัวอย่าง 45 รายการให้พวกเขาสังเกตการณ์ 45 คู่ ไซต์ที่ 2 มี 40 ตัวอย่างและไซต์ 3, 43 ตัวอย่าง พวกเขาทำการแยก Deming regressions สามครั้งแยกกัน (สมมติว่ามีอัตราส่วน 1 สำหรับข้อผิดพลาดในการวัดสำหรับสองวิธี) ดังนั้นอัลกอริธึมจึงลดผลรวมของระยะทางยกฉากตั้งฉาก ในการส่งลูกค้าของพวกเขาชี้ให้เห็นว่าตัวอย่างบางส่วนที่ใช้ในไซต์ 1 และ 2 เหมือนกัน ในการทบทวนผู้ตรวจสอบของ …

11
ตัวอย่างของกระบวนการที่ไม่ใช่ปัวซอง
ฉันกำลังมองหาตัวอย่างที่ดีของสถานการณ์ที่ไม่เหมาะสมกับแบบจำลองด้วยการแจกแจงปัวซงเพื่อช่วยฉันอธิบายการแจกแจงปัวซองให้กับนักเรียน หนึ่งมักใช้จำนวนลูกค้าที่มาถึงร้านในช่วงเวลาเป็นตัวอย่างที่สามารถสร้างแบบจำลองโดยการกระจายปัวซอง ฉันกำลังมองหาตัวอย่างที่คล้ายกันในหลอดเลือดดำที่คล้ายกันนั่นคือสถานการณ์ที่ถือได้ว่าเป็นกระบวนการนับเชิงบวกในเวลาต่อเนื่องซึ่งไม่ชัดเจนปัวซอง สถานการณ์ควรเป็นเรื่องง่ายและตรงไปตรงมาที่สุดเพื่อให้นักเรียนเข้าใจและจดจำได้ง่าย

5
ไลบรารี Java แบบโอเพนซอร์สสำหรับสถิติในระดับที่เสนอโดยหลักสูตรสถิติบัณฑิต
ฉันกำลังเรียนหลักสูตรบัณฑิตศึกษาในสถิติประยุกต์ที่ใช้ตำราเรียนต่อไปนี้ (เพื่อให้คุณรู้สึกถึงระดับของเนื้อหาที่ถูกครอบคลุม): แนวคิดและวิธีการทางสถิติโดย GK Bhattacharyya และ RA Johnson ศาสตราจารย์ต้องการให้เราใช้ SAS สำหรับการบ้าน คำถามของฉันคือ: มีห้องสมุด Java (IES) ที่สามารถใช้แทน SAS สำหรับปัญหาที่มักจะเห็นในชั้นเรียนดังกล่าว ขณะนี้ฉันกำลังพยายามทำกับApache Math Commonsและแม้ว่าฉันจะประทับใจกับห้องสมุด (มันใช้งานง่ายและเข้าใจง่าย) ดูเหมือนจะขาดสิ่งง่าย ๆ เช่นความสามารถในการวาดฮิสโทแกรม (คิดถึงการรวมเข้ากับไลบรารีแผนภูมิ ) ฉันดูที่ Colt แต่ความสนใจเริ่มแรกของฉันก็ลดลงอย่างรวดเร็ว จะขอบคุณอินพุตใด ๆ - และฉันได้ดูคำถามที่คล้ายกันใน Stackoverflow แต่ไม่พบสิ่งใดที่น่าสนใจ หมายเหตุ: ฉันรู้ว่าไลบรารี R, SciPy และ Octave และ java ที่โทรไปหาพวกเขา - ฉันกำลังมองหาไลบรารีดั้งเดิมของ Java หรือชุดของไลบรารีที่สามารถให้คุณสมบัติที่ฉันกำลังมองหาอยู่ด้วยกัน หมายเหตุ: …
15 r  sas  java 

2
ค่าเฉลี่ย (คะแนน) vs คะแนน (เรียงต่อกัน) ในการตรวจสอบข้าม
TLDR: ชุดข้อมูลของฉันมีขนาดค่อนข้างเล็ก (120) ตัวอย่าง ในขณะที่ทำการตรวจสอบข้าม 10 เท่าฉันควร: รวบรวมผลลัพธ์จากการทดสอบแต่ละครั้งแล้วเรียงต่อกันเป็นเวกเตอร์แล้วคำนวณข้อผิดพลาดของการทำนายแบบเต็ม (ตัวอย่าง 120 ตัวอย่าง) หรือไม่ หรือฉันควรแทนคำนวณข้อผิดพลาดในผลที่ฉันได้รับในแต่ละพับ (12 ตัวอย่างต่อเท่า) แล้วได้รับการประมาณการข้อผิดพลาดของฉันสุดท้ายเป็นค่าเฉลี่ยของ 10 ประมาณการผิดพลาดเท่า? มีเอกสารทางวิทยาศาสตร์ใดบ้างที่โต้แย้งความแตกต่างระหว่างเทคนิคเหล่านี้ พื้นหลัง: ความสัมพันธ์ที่อาจเกิดขึ้นกับคะแนนแมโคร / Micro ในการจำแนกประเภทหลายฉลาก: ฉันคิดว่าคำถามนี้อาจเกี่ยวข้องกับความแตกต่างระหว่างค่าเฉลี่ยไมโครและมาโครที่มักใช้ในงานการจำแนกประเภทหลายฉลาก (เช่นพูด 5 ป้ายกำกับ) ในการตั้งค่าแบบหลายฉลากจะคำนวณคะแนนเฉลี่ยขนาดเล็กโดยการทำตารางสรุปรวมของค่าบวกจริงเท็จบวกลบจริงและลบเท็จสำหรับการพยากรณ์ลักษณนามทั้งหมด 5 ตัวใน 120 ตัวอย่าง ตารางฉุกเฉินนี้จะใช้ในการคำนวณความแม่นยำระดับไมโครการเรียกคืนแบบไมโครและการวัดไมโคร f ดังนั้นเมื่อเรามี 120 ตัวอย่างและตัวแยกประเภทห้าตัวการวัดขนาดเล็กจะคำนวณจากการคาดการณ์ 600 ครั้ง (120 ตัวอย่าง * 5 ป้าย) เมื่อใช้ตัวแปรมาโครหนึ่งจะคำนวณการวัด (ความแม่นยำการเรียกคืนและอื่น ๆ ) อย่างเป็นอิสระในแต่ละฉลากและสุดท้ายมาตรการเหล่านี้จะถูกเฉลี่ย …

3
ตัวเลือกในรูปแบบการถดถอยความเป็นอันตรายแบบสัดส่วนเมื่อส่วนที่เหลือของ Schoenfeld ไม่ดีมีอะไรบ้าง
ฉันกำลังทำการถดถอยแบบอันตรายตามสัดส่วนของ Cox ในการใช้ R coxphซึ่งรวมถึงตัวแปรจำนวนมาก ส่วนที่เหลือ Martingale ดูดีและส่วนที่เหลือ Schoenfeld นั้นยอดเยี่ยมสำหรับเกือบทุกตัวแปร มีสามตัวแปรที่มี Schoenfeld ส่วนที่เหลือไม่แบนและลักษณะของตัวแปรนั้นมันทำให้รู้สึกว่าพวกเขาอาจแตกต่างกันไปตามเวลา นี่คือตัวแปรที่ฉันไม่สนใจจริง ๆ ดังนั้นการทำให้เป็นชั้นจะดี อย่างไรก็ตามพวกเขาทั้งหมดเป็นตัวแปรต่อเนื่องไม่ใช่ตัวแปรเด็ดขาด ดังนั้นฉันจึงเข้าใจชั้นที่จะไม่เป็นเส้นทาง * ฉันได้ลองสร้างปฏิสัมพันธ์ระหว่างตัวแปรและเวลาตามที่อธิบายไว้ที่นี่แต่เราได้รับข้อผิดพลาด: In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge ฉันทำงานกับจุดข้อมูลเกือบ 1,000 จุดและทำงานกับตัวแปรครึ่งโหลด้วยหลาย ๆ ปัจจัยแต่ละตัวดังนั้นจึงรู้สึกเหมือนว่าเรากำลังผลักดันขีด จำกัด ของวิธีที่ข้อมูลนี้จะถูกหั่นและหั่นเป็นลูกเต๋า โชคไม่ดีโมเดลที่เรียบง่ายทั้งหมดที่ฉันได้ลองด้วยตัวแปรที่รวมอยู่น้อยกว่านั้นแย่ลงอย่างชัดเจน ตัวเลือกของฉันคืออะไร? เนื่องจากฉันไม่สนใจเกี่ยวกับตัวแปรที่มีพฤติกรรมแย่ ๆ …

3
การผสมข้อมูลคืออะไร
ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

2
หลักการของความเฉยเมยนำไปใช้กับความขัดแย้งของ Borel-Kolmogorov หรือไม่?
พิจารณาแก้ปัญหาเจย์นส์กับความขัดแย้งเบอร์ทรานด์โดยใช้หลักการของการไม่แยแส เหตุใดข้อโต้แย้งที่คล้ายกันจึงไม่มีผลกับBorel-Kolmogorov บุคคลที่ผิดธรรมดา ? มีบางอย่างผิดปกติกับการโต้เถียงว่าเนื่องจากปัญหาไม่ได้ระบุการวางแนวสำหรับทรงกลมการหมุนทรงกลมไม่ควรส่งผลกระทบต่อการกระจายผลลัพธ์ที่เกิดขึ้นจากกระบวนการ จำกัด ที่เลือก?
15 theory  paradox 

3
คำว่ากำลังสองหรือการปฏิสัมพันธ์มีนัยสำคัญในการแยก แต่ไม่ได้อยู่ด้วยกัน
ในฐานะที่เป็นส่วนหนึ่งของการมอบหมายฉันต้องทำแบบจำลองให้พอดีกับตัวแปรทำนายสองตัว จากนั้นฉันต้องวาดพล็อตของแบบจำลองที่เหลือต่อหนึ่งในตัวทำนายที่รวมไว้และทำการเปลี่ยนแปลงตามนั้น พล็อตแสดงแนวโน้มของเส้นโค้งดังนั้นฉันจึงรวมคำกำลังสองสำหรับตัวทำนายนั้น โมเดลใหม่แสดงคำว่ากำลังสองให้มีนัยสำคัญ ดีมากจนถึงตอนนี้ อย่างไรก็ตามข้อมูลชี้ให้เห็นว่าการโต้ตอบนั้นสมเหตุสมผลเช่นกัน การเพิ่มคำที่ใช้ในการโต้ตอบกับโมเดลดั้งเดิมนั้นยังคงแนวโน้มของ curvilinear และก็มีความสำคัญเช่นกันเมื่อเพิ่มเข้ากับโมเดล ปัญหาคือเมื่อเพิ่มทั้งสองกำลังสองและคำการโต้ตอบในรูปแบบหนึ่งในนั้นไม่สำคัญ ฉันควรรวมคำใด (กำลังสองหรือการโต้ตอบ) ไว้ในโมเดลและทำไม

3
คำจำกัดความและที่มาของ "การข้ามเอนโทรปี"
วิกิพีเดียจะกำหนดข้ามเอนโทรปีของการแจกแจงแบบแยกส่วนและให้เป็นPPPQQQ H×( P; Q )= - ∑xp ( x )เข้าสู่ระบบQ( x )H×(P;Q)=-Σxพี(x)เข้าสู่ระบบ⁡Q(x).\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align} ใครเป็นคนแรกที่เริ่มใช้ปริมาณนี้ และใครเป็นคนคิดค้นคำนี้ ฉันดูใน: JE Shore และ RW Johnson "หลักการที่ได้มาจากหลักการของเอนโทรปีสูงสุดและหลักการของการข้ามเอนโทรปีขั้นต่ำ" ทฤษฎีข้อมูลธุรกรรม IEEE บนฉบับที่ หมายเลข 26 1, pp. 26-37, ม.ค. 1980 ฉันทำตามคำแนะนำของพวกเขา A. Wehrl, "คุณสมบัติทั่วไปของเอนโทรปี" ความคิดเห็นเกี่ยวกับฟิสิกส์ยุคใหม่ 50, ไม่ 2, pp. 221-260, เม.ย. …

3
ขั้นตอนอัตโนมัติสำหรับการเลือกชุดย่อยของจุดข้อมูลที่มีความสัมพันธ์มากที่สุด?
มีขั้นตอนมาตรฐานบางอย่าง (ซึ่งอาจอ้างอิงถึงการอ้างอิง) สำหรับการเลือกเซ็ตย่อยของจุดข้อมูลจากพูลขนาดใหญ่ที่มีความสัมพันธ์ที่แข็งแกร่งที่สุด (ตามสองมิติ)? ตัวอย่างเช่นสมมติว่าคุณมี 100 จุดข้อมูล คุณต้องการเซตย่อย 40 คะแนนโดยมีความสัมพันธ์ที่แข็งแกร่งที่สุดเท่าที่เป็นไปได้ในมิติ X และ Y ฉันรู้ว่าการเขียนโค้ดเพื่อทำสิ่งนี้จะค่อนข้างตรงไปตรงมา แต่ฉันสงสัยว่ามีแหล่งอ้างอิงใดหรือไม่

3
ความสับสนเกี่ยวกับเวลาที่จะใช้
ผมหมายถึงการบรรยายวิดีโอนี้สำหรับการคำนวณช่วงความเชื่อมั่น อย่างไรก็ตามฉันมีความสับสน เจ้านี่ใช้ -statistics สำหรับการคำนวณ แต่ผมคิดว่ามันควรจะได้รับเสื้อ -statistics เราไม่ได้รับค่าเบี่ยงเบนมาตรฐานที่แท้จริงของประชากร เราใช้ค่าเบี่ยงเบนมาตรฐานตัวอย่างเพื่อประมาณค่าจริงzzzttt แล้วทำไมเขาถึงกระจายตัวแบบปกติสำหรับช่วงความมั่นใจแทนที่จะเป็น ?ttt

2
สร้างตัวแปรสุ่มแบบกระจายที่สัมพันธ์กันสามชุด
สมมติว่าเรามี X1∼unif(n,0,1),X1~ยูนิฟ(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2~ยูนิฟ(n,0,1),X_2 \sim \textrm{unif}(n,0,1), โดยที่เป็นตัวอย่างแบบสุ่มขนาดเท่ากันของขนาด n และunif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1) Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. จากนั้นความสัมพันธ์ระหว่างและเป็น0.4YYYZZZ0.40.40.4 ฉันสามารถขยายนี้ถึงสามตัวแปร , , ?X1X1X_1X2X2X_2X3X3X_3

4
จะทราบได้อย่างไรว่าเว็บไซต์โป๊กเกอร์ออนไลน์นั้นยุติธรรมหรือไม่?
สัปดาห์ที่แล้วฉันมีการสนทนาที่น่าสนใจกับเพื่อนที่ดีของฉัน เขาเล่นโป๊กเกอร์ออนไลน์มาแล้วและแนะนำว่ามีความสัมพันธ์ระหว่างการสมัครสมาชิกใหม่ / การโอนเงินเพิ่มเติมและไพ่ที่คุณได้รับแจกเช่นคุณได้รับไพ่ดี ๆ ไซต์อาจจะเสี่ยงมากถ้าเป็นจริง แต่ปัญหายังคงติดใจฉัน วิธีแรกของฉันไปนี้คือการขอให้เพื่อนของฉันที่จะกำหนด "บัตรดี" และทำง่ายทดสอบทวินาม เพื่อนของฉันมีเวลายากลำบากในการกำหนดว่าการ์ดที่ดีคืออะไร ถ้าเขาได้ไพ่ที่ไม่ดีจริง ๆ เขาก็รู้ว่าจะพับในขณะที่ถ้าเขาได้ไพ่ที่ดีเขาก็จะรู้ว่าจะต้องไปไหน - ไพ่ที่ไม่ดีนั้นอยู่ระหว่างนั้น วิธีอื่นของฉันคือการคำนวณความน่าจะเป็นที่แน่นอนของแต่ละมือที่ได้รับจากนั้นดูว่ามันแตกต่างจากที่คาดไว้หรือไม่โดยใช้การทดสอบแบบลงนามของ Wilcoxonเนื่องจากสิ่งนี้ควรตรวจจับรูปร่างการกระจายที่แตกต่างกัน ฉันเดาว่าส่วนที่ยากคือการคำนวณความน่าจะเป็นที่แน่นอน ข้อมูลจะประกอบด้วยไพ่แจกไพ่ 0-100 ใบแรกเมื่อเทียบกับไพ่แจก 300-400 ใบในสัปดาห์ต่อมา (หรือเพื่อนที่อยู่บนไซต์สักพักหนึ่ง) คำถาม : คุณแนะนำให้แนวทางแก้ไขปัญหาอย่างไร? Texas Hold'em ทำงานอย่างไร ฉันไม่เล่นเกมผู้เชี่ยวชาญ (ผมเคยเล่นเพียง Texas Hold'em 3-4 ครั้ง) แต่มันค่อนข้างง่ายที่คุณสามารถหารายละเอียดเพิ่มเติมเกี่ยวกับหน้าวิกินี่ ความแตกต่างที่สำคัญจากโป๊กเกอร์ทั่วไปคือคุณจะได้รับไพ่ 2 ใบเมื่อเริ่มต้นเท่านั้น คุณไม่ได้เปลี่ยนการ์ดเหล่านี้ บนโต๊ะมีการ์ดอีก 5 ใบคว่ำหน้าลง เมื่อรวมสองโต๊ะของคุณเข้ากับโต๊ะ 5 คุณจะได้ไพ่ 5 ใบที่ดีที่สุดเท่าที่จะเป็นไปได้ …

1
ทำไมค่าสัมประสิทธิ์การถดถอย rlm () ประมาณต่างจาก lm () ใน R?
ฉันกำลังใช้ rlm ในแพ็คเกจ R MASS เพื่อถดถอยโมเดลเชิงเส้นหลายตัวแปร มันใช้งานได้ดีสำหรับตัวอย่างจำนวนหนึ่ง แต่ฉันได้รับค่าสัมประสิทธิ์เสมือนสำหรับรุ่นเฉพาะ: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.