สถิติและข้อมูลขนาดใหญ่

3

Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?

Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

53 r regression data-transformation normality-assumption

4

จะสร้างตัวเลขสุ่มที่มีความสัมพันธ์กันอย่างไร (ให้หมายถึงผลต่างและระดับความสัมพันธ์)

ฉันขอโทษถ้ามันดูธรรมดาไปหน่อย แต่ฉันคิดว่าฉันแค่ต้องการยืนยันความเข้าใจที่นี่ ฉันเข้าใจว่าฉันต้องทำสิ่งนี้ในสองขั้นตอนและฉันก็เริ่มพยายามฝึกความสัมพันธ์ แต่ก็เริ่มดูเหมือนจะเกี่ยวข้องจริงๆ ฉันกำลังมองหาคำอธิบายที่กระชับ (นึกคิดด้วยคำแนะนำต่อการแก้ปัญหา pseudocode) ของวิธีที่ดีและรวดเร็วในการสร้างตัวเลขสุ่มที่สัมพันธ์กัน ด้วยความสูงและน้ำหนักของตัวแปรเทียมสองตัวที่มีความหมายและความแปรปรวนที่รู้จักกันและความสัมพันธ์ที่กำหนดฉันคิดว่าฉันพยายามเข้าใจว่าขั้นตอนที่สองนี้ควรเป็นอย่างไร height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) ฉันจะคำนวณค่าเฉลี่ยและความแปรปรวนได้อย่างไร แต่ฉันต้องการยืนยันว่านี่เป็นปัญหาที่เกี่ยวข้องจริงๆที่นี่ ฉันจำเป็นต้องใช้วิธีจัดการกับเมทริกซ์หรือไม่? หรือฉันมีสิ่งอื่นที่ผิดปกติมากในแนวทางพื้นฐานของปัญหานี้

53 probability correlation conditional-probability random-generation

3

APIs / ฟีดข้อมูลพร้อมใช้งานเป็นแพ็คเกจใน R

แก้ไข: มุมมองงานเว็บเทคโนโลยีและบริการ CRAN มีรายการที่ครอบคลุมมากขึ้นของแหล่งข้อมูลและ APIs ที่มีอยู่ในอาร์คุณสามารถส่งคำขอดึงบน GitHubถ้าคุณต้องการที่จะเพิ่มแพคเกจไปที่มุมมองงาน ฉันกำลังสร้างรายการฟีดข้อมูลต่าง ๆ ที่ติดเข้ากับ R แล้วหรือติดตั้งง่าย นี่คือรายการแพ็คเกจเริ่มต้นของฉันและฉันก็สงสัยว่ามีอะไรอีกที่ขาดหายไป ฉันพยายาม จำกัด รายการนี้เป็น "เรียลไทม์" หรือ "ใกล้เคียงกับเรียลไทม์" ฟีดข้อมูล / API ที่ข้อมูลพื้นฐานอาจมีการเปลี่ยนแปลงระหว่างการดาวน์โหลด มีรายการมากมายสำหรับชุดข้อมูลแบบสแตติกซึ่งต้องการการดาวน์โหลดเพียงครั้งเดียว ขณะนี้รายการนี้มีอคติต่อข้อมูลชุดข้อมูลทางการเงิน / เวลาและฉันสามารถใช้ความช่วยเหลือบางอย่างเพื่อขยายเข้าไปในโดเมนอื่น ข้อมูลฟรี: แหล่งข้อมูล - แพ็คเกจ ข้อมูลย้อนหลัง ของ Google Finance - quantmod งบดุลของ Google Finance - Quantmod Yahoo Historical Finance - Quantmod Yahoo Historical Finance …

53 r references dataset

10

การเรียนรู้ของเครื่องโดยใช้ Python

ฉันกำลังพิจารณาที่จะใช้ห้องสมุด Python เพื่อทำการทดลองการเรียนรู้ของเครื่อง จนถึงตอนนี้ฉันพึ่ง WEKA แล้ว แต่ก็ไม่พอใจในภาพรวมทั้งหมด นี่เป็นหลักเพราะฉันพบว่า WEKA ไม่ได้รับการสนับสนุนที่ดี (ตัวอย่างน้อยมากเอกสารน้อยมากและการสนับสนุนจากชุมชนน้อยกว่าที่ต้องการในประสบการณ์ของฉัน) และพบว่าตัวเองตกอยู่ในสถานการณ์ที่ลำบากโดยไม่มีความช่วยเหลือ อีกเหตุผลหนึ่งที่ฉันคิดว่าท่านี้เป็นเพราะฉันชอบ Python จริงๆ (ฉันใหม่กับ Python) และไม่ต้องการกลับไปเขียนโปรแกรมใน Java ดังนั้นคำถามของฉันคืออะไรเพิ่มเติม ครอบคลุม ปรับขนาดได้ (คุณสมบัติ 100k, ตัวอย่าง 10k) และ ห้องสมุดที่รองรับการทำ ML ใน Python นั้นดีหรือไม่ ฉันสนใจเป็นพิเศษในการจัดหมวดหมู่ข้อความและต้องการใช้ไลบรารีที่มีตัวแยกประเภทที่ดีวิธีการเลือกคุณสมบัติ (Information Gain, Chi-Sqaured ฯลฯ ) และความสามารถในการประมวลผลข้อความล่วงหน้า (การหยุดการลบคำหยุด , tf-idf เป็นต้น) จากหัวข้ออีเมลที่ผ่านมาที่นี่และที่อื่น ๆ ฉันได้ดู PyML, scikits-learn และ Orange …

53 machine-learning python

6

การถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพ

ฉันกำลังวิเคราะห์ข้อมูลบางอย่างที่ฉันต้องการทำการถดถอยเชิงเส้นปกติ แต่เป็นไปไม่ได้เมื่อฉันจัดการกับการตั้งค่าออนไลน์ด้วยการป้อนข้อมูลต่อเนื่อง (ซึ่งจะใหญ่เกินไปสำหรับหน่วยความจำ) และต้องการ เพื่ออัปเดตการประมาณการพารามิเตอร์ขณะนี้กำลังถูกใช้ไป เช่นฉันไม่สามารถโหลดทั้งหมดลงในหน่วยความจำและทำการถดถอยเชิงเส้นในชุดข้อมูลทั้งหมด ฉันสมมติว่าตัวแบบการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นคือ y=Ax+b+ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e อัลกอริทึมที่ดีที่สุดสำหรับการสร้างการประเมินการอัปเดตอย่างต่อเนื่องของพารามิเตอร์การถดถอยเชิงเส้นและคืออะไร?ขAA\mathbf Abb\mathbf b จะเป็นการดี: ฉันต้องการอัลกอริทึมที่มีพื้นที่ว่างและเวลามากที่สุดต่อการอัปเดตโดยที่คือขนาดของตัวแปรอิสระ ( ) และคือขนาดของตัวแปรตาม ( )N x M yO(N⋅M)O(N⋅M)\mathcal O(N\cdot M)NNNxx\mathbf xMMMyy\mathbf y ฉันต้องการที่จะสามารถระบุพารามิเตอร์บางอย่างเพื่อกำหนดจำนวนพารามิเตอร์ที่มีการปรับปรุงโดยตัวอย่างใหม่แต่ละตัวอย่างเช่น 0.000001 จะหมายความว่าตัวอย่างต่อไปจะให้หนึ่งในล้านของการประมาณค่าพารามิเตอร์ สิ่งนี้จะทำให้การสลายตัวแบบเลขชี้กำลังสำหรับผลกระทบของกลุ่มตัวอย่างในอดีตอันไกลโพ้น

53 time-series regression algorithms real-time

5

แนวปฏิบัติที่ดีที่สุดเมื่อวิเคราะห์การออกแบบการควบคุมการรักษาก่อนโพสต์

ลองนึกภาพการออกแบบทั่วไปต่อไปนี้: ผู้เข้าร่วม 100 คนจะถูกจัดสรรแบบสุ่มให้กับการรักษาหรือกลุ่มควบคุม ตัวแปรตามคือตัวเลขและวัดก่อนและหลังการรักษา สามตัวเลือกที่ชัดเจนสำหรับการวิเคราะห์ข้อมูลดังกล่าวคือ: ทดสอบกลุ่มตามผลการโต้ตอบเวลาใน ANOVA ผสม ทำ ANCOVA โดยมีเงื่อนไขเหมือนกับ IV และการวัดล่วงหน้าเป็น covariate และ post post เป็น DV ทำการทดสอบ t โดยมีเงื่อนไขว่าเป็น IV และโพสต์คะแนนการเปลี่ยนแปลงล่วงหน้าเป็น DV คำถาม: วิธีที่ดีที่สุดในการวิเคราะห์ข้อมูลดังกล่าวคืออะไร? มีเหตุผลที่จะชอบวิธีหนึ่งมากกว่าอีกวิธีหนึ่งหรือไม่?

53 anova ancova clinical-trials change-scores

30

นักสถิติที่มีชื่อเสียงที่สุด

นักสถิติที่สำคัญที่สุดคืออะไรและอะไรทำให้พวกเขาโด่งดัง (โปรดตอบเพียงหนึ่งนักวิทยาศาสตร์ต่อคำตอบโปรด)

53 methodology history

9

การวัดเอนโทรปี / ข้อมูล / รูปแบบของเมทริกซ์ไบนารี 2d

ฉันต้องการวัดความหนาแน่นของข้อมูลเอนโทรปี / ข้อมูล / รูปแบบความคล้ายคลึงของเมทริกซ์ไบนารีสองมิติ ให้ฉันแสดงภาพเพื่อความกระจ่าง: จอแสดงผลนี้ควรมีเอนโทรปีค่อนข้างสูง: A) สิ่งนี้ควรมีเอนโทรปีปานกลาง: B) ในที่สุดภาพเหล่านี้ทั้งหมดควรมีค่าใกล้ศูนย์ - เอนโทรปี: C) D) E) มีดัชนีที่จับเอนโทรปีหรือไม่ "รูปแบบเหมือนกัน" ของจอแสดงผลเหล่านี้คืออะไร? แน่นอนว่าอัลกอริทึมแต่ละตัว (เช่นอัลกอริธึมการบีบอัดหรืออัลกอริทึมการหมุนที่เสนอโดย ttnphns ) นั้นไวต่อคุณสมบัติอื่น ๆ ของจอแสดงผล ฉันกำลังมองหาอัลกอริทึมที่พยายามจับภาพคุณสมบัติต่อไปนี้: สมมาตรการหมุนและแกน ปริมาณของการทำคลัสเตอร์ ซ้ำ อาจจะซับซ้อนกว่านี้อัลกอริทึมอาจมีความอ่อนไหวต่อคุณสมบัติของจิตวิทยา " หลักการเกสตัลต์ " โดยเฉพาะ: กฎหมายของความใกล้ชิด: กฎแห่งความสมมาตร: ภาพสมมาตรถูกรับรู้ร่วมกันแม้จะอยู่ในระยะไกล: แสดงด้วยคุณสมบัติเหล่านี้ควรได้รับการกำหนด "ค่าเอนโทรปีต่ำ"; จอแสดงผลที่มีคะแนนค่อนข้างสุ่ม / ไม่มีโครงสร้างควรได้รับการกำหนด "ค่าเอนโทรปีสูง" ฉันทราบว่าอาจไม่มีอัลกอริทึมเดียวที่จะจับภาพคุณลักษณะเหล่านี้ทั้งหมด ดังนั้นคำแนะนำสำหรับอัลกอริทึมที่กล่าวถึงเพียงคุณลักษณะบางอย่างหรือแม้แต่คุณสมบัติเดียวก็ยินดีต้อนรับเช่นกัน โดยเฉพาะอย่างยิ่งฉันกำลังมองหาที่เป็นรูปธรรมอัลกอริทึมที่มีอยู่หรือความคิดที่นำไปใช้เฉพาะ (และฉันจะให้รางวัลตามเกณฑ์เหล่านี้)

53 algorithms binary-data entropy pattern-recognition information

5

อะไรคือข้อเสียของตัวแบบพื้นที่รัฐและตัวกรองคาลมานสำหรับการสร้างแบบจำลองอนุกรมเวลา?

จากคุณสมบัติที่ดีทั้งหมดของแบบจำลองพื้นที่รัฐและ KF ฉันสงสัยว่าอะไรคือข้อเสียของการสร้างแบบจำลองพื้นที่ของรัฐและการใช้ตัวกรองคาลมาน (หรือ EKF, UKF หรือตัวกรองอนุภาค) สำหรับการประเมิน? เอาเป็นว่าสมมุติฐานของวิธีการทั่วไปเช่นวิธี ARIMA, VAR หรือ ad-hoc / heuristic พวกเขายากที่จะสอบเทียบ? พวกเขาซับซ้อนและยากหรือไม่ที่จะเห็นว่าการเปลี่ยนแปลงโครงสร้างของแบบจำลองจะส่งผลกระทบต่อการทำนายอย่างไร หรือกล่าวอีกนัยหนึ่ง - ข้อดีของ ARIMA ทั่วไปคืออะไร VAR สำหรับรุ่นของรัฐ ฉันสามารถคิดได้เฉพาะข้อดีของแบบจำลองพื้นที่รัฐ: มันสามารถจัดการการแตกโครงสร้างการกะพารามิเตอร์ที่แปรผันตามเวลาของแบบจำลองบางแบบได้อย่างง่ายดายเพียงแค่ทำให้พารามิเตอร์เหล่านั้นเป็นสถานะแบบไดนามิกของแบบจำลองพื้นที่รัฐและตัวแบบจะปรับให้เข้ากับการเปลี่ยนแปลงใด ๆ ในพารามิเตอร์โดยอัตโนมัติ มันจัดการข้อมูลที่ขาดหายไปอย่างเป็นธรรมชาติเพียงแค่ทำขั้นตอนการเปลี่ยนแปลงของ KF และไม่ทำขั้นตอนการอัปเดต มันช่วยให้สามารถเปลี่ยนพารามิเตอร์ on-a-fly ของแบบจำลองพื้นที่ของรัฐเอง (โควาเรียสของเสียงและเมทริกซ์การเปลี่ยนผ่าน / การสังเกต) ดังนั้นหากการสังเกตปัจจุบันของคุณมาจากแหล่งที่แตกต่างกันเล็กน้อยกว่าอื่น ๆ - คุณสามารถรวม มีอะไรพิเศษไหม; การใช้คุณสมบัติด้านบนช่วยให้สามารถจัดการข้อมูลที่เว้นระยะไม่สม่ำเสมอได้ง่าย: เปลี่ยนโมเดลในแต่ละครั้งตามช่วงเวลาระหว่างการสังเกตหรือใช้ช่วงเวลาปกติและจัดการช่วงเวลาโดยไม่ต้องสังเกตว่าเป็นข้อมูลที่ขาดหายไป อนุญาตให้ใช้ข้อมูลจากแหล่งต่าง ๆ พร้อมกันในรูปแบบเดียวกันเพื่อประมาณปริมาณหนึ่งพื้นฐาน จะช่วยให้การสร้างแบบจำลองจากหลายinterpretableส่วนประกอบแบบไดนามิกสำรวจและประเมินพวกเขา; โมเดล ARIMA …

53 time-series arima kalman-filter var

7

การตรวจหาช่วงเวลาของอนุกรมเวลาทั่วไป

โพสต์นี้เป็นความต่อเนื่องของโพสต์อื่นที่เกี่ยวข้องกับการเป็นวิธีการทั่วไปสำหรับการตรวจสอบค่าผิดปกติในอนุกรมเวลา โดยทั่วไป ณ จุดนี้ฉันสนใจวิธีที่มีประสิทธิภาพในการค้นพบช่วงเวลา / ฤดูกาลของซีรีย์เวลาทั่วไปที่ได้รับผลกระทบจากเสียงรบกวนมากมาย จากมุมมองของนักพัฒนาฉันต้องการอินเทอร์เฟซที่เรียบง่ายเช่น: unsigned int discover_period(vector<double> v); vอาร์เรย์ที่มีตัวอย่างอยู่ที่ไหนและค่าส่งคืนคือช่วงเวลาของสัญญาณ ประเด็นหลักคืออีกครั้งฉันไม่สามารถทำการสันนิษฐานเกี่ยวกับสัญญาณที่วิเคราะห์ได้ ฉันลองใช้วิธีการโดยอิงตามสัญญาณอัตโนมัติ (การตรวจจับจุดยอดของ correlogram) แล้ว แต่ก็ไม่แข็งแกร่งเท่าที่ฉันต้องการ

53 time-series algorithms frequency real-time

5

เครื่องมือเพิ่มประสิทธิภาพของอดัมพร้อมการสลายตัวแบบทวีคูณ

ในรหัส Tensorflow ส่วนใหญ่ฉันเห็น Adam Optimizer ใช้กับอัตราการเรียนรู้คงที่1e-4(เช่น 0.0001) รหัสมักจะมีลักษณะดังต่อไปนี้: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually …

53 neural-networks deep-learning gradient-descent tensorflow adam

2

“ ความแปรปรวนคงที่” ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?

การมี "ความแปรปรวนคงที่" ในคำที่ผิดพลาดหมายถึงอะไร อย่างที่ฉันเห็นเรามีข้อมูลที่มีตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระหนึ่งตัว ความแปรปรวนคงที่เป็นหนึ่งในสมมติฐานของการถดถอยเชิงเส้น ฉันสงสัยว่า homoscedasticity หมายถึงอะไร เนื่องจากแม้ว่าฉันมี 500 แถวฉันจะมีค่าความแปรปรวนเดียวซึ่งแน่นอนว่าคงที่ ฉันควรเปรียบเทียบความแปรปรวนแบบใดกับตัวแปรใด

53 regression heteroscedasticity

3

ทำไมเราถึงสนใจข้อผิดพลาดการกระจายแบบปกติ (และ homoskedasticity) มากในการถดถอยเชิงเส้นเมื่อเราไม่ต้องทำ

ฉันคิดว่าฉันหงุดหงิดทุกครั้งที่ได้ยินคนพูดว่าการไม่ปฏิบัติตามกฎเกณฑ์ของผู้ตกค้างและ / หรือ heteroskedasticity ละเมิดสมมติฐานของ OLS ในการประมาณค่าพารามิเตอร์ในแบบจำลอง OLS ไม่จำเป็นต้องใช้สมมติฐานเหล่านี้ในทฤษฎีบท Gauss-Markov ฉันเห็นว่าสิ่งนี้สำคัญในการทดสอบสมมติฐานสำหรับแบบจำลอง OLS เนื่องจากการสมมติว่าสิ่งเหล่านี้ทำให้เรามีสูตรที่เป็นระเบียบสำหรับการทดสอบ t-test การทดสอบ F และสถิติทั่วไปของ Wald แต่มันก็ไม่ยากเกินไปที่จะทำการทดสอบสมมติฐานโดยที่ไม่มีพวกเขา หากเราลดลงเพียง homoskedasticity เราสามารถคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งและข้อผิดพลาดมาตรฐานคลัสเตอร์ได้อย่างง่ายดาย หากเราทิ้งกฎเกณฑ์โดยสิ้นเชิงเราสามารถใช้การบูตสแตรปปิ้งและกำหนดพารามิเตอร์แบบอื่นสำหรับข้อผิดพลาดอัตราส่วนความน่าจะเป็นและการทดสอบตัวคูณแบบลากรองจ์ มันเป็นเพียงความอัปยศที่เราสอนด้วยวิธีนี้เพราะฉันเห็นคนจำนวนมากที่ต้องดิ้นรนกับข้อสันนิษฐานที่พวกเขาไม่ต้องพบเจอในตอนแรก ทำไมเราถึงเน้นสมมติฐานเหล่านี้อย่างมากเมื่อเรามีความสามารถในการใช้เทคนิคที่แข็งแกร่งกว่าได้อย่างง่ายดาย? ฉันขาดสิ่งสำคัญไปหรือเปล่า

52 regression assumptions normality-assumption robust teaching

3

ทำการปรับสภาพคุณลักษณะก่อนหรือภายในการตรวจสอบรุ่นหรือไม่

แนวปฏิบัติที่ดีทั่วไปในการเรียนรู้ของเครื่องคือการทำคุณลักษณะการทำให้เป็นมาตรฐานหรือมาตรฐานข้อมูลของตัวแปรตัวทำนายนั่นคือทำให้ข้อมูลอยู่กึ่งกลางการแทนที่ค่าเฉลี่ยและทำให้มันเป็นมาตรฐานโดยการหารด้วยความแปรปรวน สำหรับการควบคุมตนเองและเพื่อความเข้าใจของฉันเราทำสิ่งนี้เพื่อให้บรรลุสองสิ่งสำคัญ: หลีกเลี่ยงน้ำหนักรุ่นเล็กพิเศษเพื่อจุดประสงค์ในการรักษาเสถียรภาพของตัวเลข ตรวจสอบให้แน่ใจว่าการรวมกันของอัลกอริธึมการปรับให้เหมาะสมอย่างรวดเร็วเช่น Conjugate Gradient เพื่อให้ขนาดอันใหญ่ของมิติตัวทำนายหนึ่งมิติที่อื่นไม่นำไปสู่การลู่เข้าที่ช้า เรามักจะแบ่งข้อมูลออกเป็นชุดฝึกอบรมตรวจสอบและทดสอบ ในวรรณกรรมเรามักจะเห็นว่าการทำคุณลักษณะให้เป็นมาตรฐานพวกมันใช้ค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) เหนือชุดตัวแปรทำนายทั้งชุด ข้อบกพร่องใหญ่ ๆ ที่ฉันเห็นที่นี่คือถ้าคุณทำเช่นนั้นคุณกำลังแนะนำข้อมูลในอนาคตให้กับตัวแปรทำนายการฝึกอบรมซึ่งเป็นข้อมูลในอนาคตที่มีอยู่ในค่าเฉลี่ยและความแปรปรวน ดังนั้นฉันจึงทำการปรับสภาพให้เป็นมาตรฐานบนข้อมูลการฝึกอบรมและบันทึกค่าเฉลี่ยและความแปรปรวน จากนั้นฉันจะนำคุณสมบัติการทำให้เป็นมาตรฐานมาใช้กับตัวแปรทำนายของชุดข้อมูลการตรวจสอบความถูกต้องและการทดสอบโดยใช้ค่าเฉลี่ยการฝึกอบรมและผลต่าง มีข้อบกพร่องพื้นฐานกับสิ่งนี้หรือไม่? ใครสามารถแนะนำทางเลือกที่ดีกว่าได้ไหม

52 machine-learning normalization standardization multidimensional-scaling

4

คัมมิง (2008) อ้างว่าการกระจายของค่า p ที่ได้รับในการจำลองขึ้นอยู่กับค่า p เดิมเท่านั้น มันจะเป็นจริงได้อย่างไร?

ผมได้อ่านเจฟฟ์คัมมิงกระดาษ 2008 การจำลองแบบและช่วงเวลา:ค่าทำนายอนาคตเพียงราง ๆ แต่ช่วงความเชื่อมั่นทำได้ดีกว่าpppppp พีพี[~ 200 อ้างอิงใน Google Scholar] - และกำลังสับสนโดยหนึ่งของการเรียกร้องที่อยู่ใจกลางเมือง นี่คือหนึ่งในชุดเอกสารที่คัมมิงโต้แย้งกับ value และสนับสนุนช่วงความมั่นใจ คำถามของฉัน แต่เป็นไม่ได้เกี่ยวกับการอภิปรายครั้งนี้และมีเพียงการเรียกร้องความกังวลหนึ่งที่เฉพาะเจาะจงเกี่ยวกับ -valuespppppp ให้ฉันอ้างอิงจากนามธรรม: บทความนี้แสดงให้เห็นว่าถ้าผลการทดสอบครั้งแรกในสองด้าน , มี โอกาสที่นกหนึ่ง -value จากการจำลองแบบจะตกอยู่ในช่วงเวลาเป็นโอกาสที่และอย่างเต็มที่โอกาสที่0.44 ช่วงเวลาที่เรียกว่าช่วงเวลามีความกว้างนี้ แต่ขนาดตัวอย่างใหญ่p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p<.00008p<.00008p < .0000810%10%10\%p>.44p>.44p > .44ppp คัมมิงอ้างว่า "ช่วง" และในความเป็นจริงการกระจายทั้ง -values ที่หนึ่งจะได้รับเมื่อจำลองการทดลองเดิม (แบบเดียวกับขนาดตัวอย่างคงที่) ขึ้นอยู่เฉพาะในต้นฉบับ -valueและไม่ขึ้นอยู่กับขนาดผลกระทบที่แท้จริงกำลังไฟขนาดตัวอย่างหรือสิ่งอื่นใด:pppp p o b tpppppppobtpobtp_\mathrm{obt} [... ] การกระจายความน่าจะเป็นของสามารถได้มาโดยไม่ทราบหรือสมมติว่ามีค่าสำหรับ (หรือพลังงาน) [... …

52 hypothesis-testing p-value power replicability