วิธีการปฏิวัติใหม่ของการขุดข้อมูล?


21

ข้อความที่ตัดตอนมาต่อไปนี้มาจากHedge Fund Market Wizzards ของ Schwager (พฤษภาคม 2012) สัมภาษณ์กับผู้จัดการกองทุน Hedge ที่ประสบความสำเร็จอย่างต่อเนื่อง Jaffray Woodriff:

สำหรับคำถาม: "อะไรคือข้อผิดพลาดที่เลวร้ายที่สุดที่ผู้คนทำในการขุดข้อมูล?":

ผู้คนจำนวนมากคิดว่าพวกเขาโอเคเพราะพวกเขาใช้ข้อมูลในตัวอย่างสำหรับการฝึกอบรมและข้อมูลนอกตัวอย่างสำหรับการทดสอบ จากนั้นพวกเขาเรียงลำดับโมเดลตามวิธีที่พวกเขาดำเนินการกับข้อมูลในตัวอย่างและเลือกคนที่ดีที่สุดในการทดสอบข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง แนวโน้มของมนุษย์คือการใช้แบบจำลองที่ยังคงทำได้ดีในข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างและเลือกแบบจำลองเหล่านั้นเพื่อการซื้อขาย กระบวนการประเภทนั้นเปลี่ยนข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างให้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมเพราะมันเลือกรูปแบบที่ทำได้ดีที่สุดในช่วงเวลาตัวอย่าง เป็นหนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำและหนึ่งในสาเหตุที่การทำ data data เพราะโดยทั่วไปแล้วจะทำให้ได้ผลลัพธ์ที่แย่มาก

ผู้สัมภาษณ์ถามมากกว่า: "คุณควรทำอะไรแทน"

คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี คุณรู้ว่าคุณทำได้ดีถ้าค่าเฉลี่ยสำหรับโมเดลที่ไม่อยู่ในกลุ่มตัวอย่างนั้นเป็นเปอร์เซ็นต์ที่สำคัญของคะแนนในตัวอย่าง โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง รูปแบบธุรกิจของ QIM จะไม่ทำงานถ้า SAS และ IBM กำลังสร้างซอฟต์แวร์การสร้างแบบจำลองการทำนายที่ยอดเยี่ยม


คำถามของฉัน
มันสมเหตุสมผลหรือไม่? เขาหมายถึงอะไร คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน? หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...


4
เขาไม่เพียงแค่พูดถึงข้อผิดพลาดจากตัวอย่างแยกเดี่ยว (รถไฟและการตรวจสอบ) และสนับสนุนกระบวนการตรวจสอบข้ามซ้อนกันหรือไม่
B_Miner

12
ฉันจะระวังใครก็ตามที่อ้างความเข้าใจอย่างลึกซึ้งที่จะปฏิวัติ "วิทยาศาสตร์"
พระคาร์ดินัล

2
ผู้จัดการกองทุนเฮดจ์ฟันด์อ้างถึง "วิธีการสร้างแบบจำลองที่ดีกว่า" และกำลังพูดถึงการแข่งขันบ้าง? ไม่มีอะไรใหม่ที่นั่น
zbicyclist

2
ว้าวคำถามนี้มีจำนวน upvotes อย่างไร การคาดการณ์จากตัวอย่างเป็นปัญหาที่กล่าวถึงในวันแรกของหลักสูตรการเรียนรู้เครื่องเบื้องต้น มีคนที่ไม่ได้คาดการณ์อย่างถูกต้อง แต่ไม่มีใครที่มีเงื่อนงำแม้แต่น้อยที่สุดเกี่ยวกับงานทำนาย
user4733

แน่นอนว่าการซื้อขายเป็นปัญหาเวลา - sereis สิ่งที่เขาพูดดูเหมือนว่าการตรวจสอบข้าม (แน่นอนโดยใช้ข้อมูลที่รู้จักกัน) ไม่สามารถแก้ปัญหาของการเปลี่ยนแปลงโครงสร้างกับเวลา! ดังนั้นไม่ใช่จอกศักดิ์สิทธิ์ แต่สิ่งที่เขาทำจริงๆไม่สามารถอนุมานได้
kjetil b halvorsen

คำตอบ:


6

สิ่งนี้มีเหตุผลหรือไม่? เป็นบางส่วน

เขาหมายถึงอะไร กรุณาถามเขา

คุณมีเงื่อนงำหรือบางทีอาจเป็นชื่อของวิธีการที่เสนอและการอ้างอิงบางส่วน?

การตรวจสอบข้าม http://en.wikipedia.org/wiki/Cross-validation_(statistics)

หรือผู้ชายคนนี้พบจอกศักดิ์สิทธิ์ที่ไม่มีใครเข้าใจหรือไม่? เลขที่

เขายังกล่าวในการสัมภาษณ์ครั้งนี้ว่าวิธีการของเขาอาจปฏิวัติวิทยาศาสตร์ ...บางทีเขาลืมที่จะรวมการอ้างอิงสำหรับคำสั่งนั้น ...


2
อย่างน้อยเขาก็ชี้ให้เห็นปัญหาที่แท้จริง ...

8

ไม่แน่ใจว่าจะมีคำตอบ "ranty" อื่น ๆ อีกหรือไม่ แต่นี่คือของฉัน

การตรวจสอบความถูกต้องไขว้ไม่ได้เป็น "ใหม่" นอกจากนี้จะไม่ใช้การตรวจสอบความถูกต้องเมื่อพบโซลูชันการวิเคราะห์ ตัวอย่างเช่นคุณไม่ได้ใช้การตรวจสอบความถูกต้องข้ามเพื่อประเมิน betas คุณใช้OLSหรือIRLSหรือวิธีการแก้ปัญหา "ดีที่สุด" อื่น ๆ

สิ่งที่ฉันเห็นว่าเป็นช่องว่างที่เห็นได้ชัดเจนในการอ้างอิงนั้นไม่มีการอ้างอิงถึงความคิดใด ๆ ในการตรวจสอบแบบจำลอง "ที่ดีที่สุด" เพื่อดูว่ามันเหมาะสมหรือไม่ โดยทั่วไปแล้วตัวแบบที่ดีจะเข้าใจได้ง่ายในบางระดับ ดูเหมือนว่าการเรียกร้องคือCVเป็น bullet เงินปัญหาการทำนายทั้งหมด นอกจากนี้ยังไม่มีการตั้งค่าการพูดคุยในระดับที่สูงขึ้นของโครงสร้างแบบจำลอง - เราใช้SVM , ต้นไม้การถดถอย , การเพิ่มประสิทธิภาพ , การบรรจุ , OLS , GLMS , GLMNS. เราทำให้ตัวแปรเป็นปกติหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร เราจัดกลุ่มตัวแปรเข้าด้วยกันหรือไม่? เราต้องการความแข็งแกร่งเพื่อ sparsity หรือไม่ พวกเรามีคนผิดหรือเปล่า? เราควรสร้างแบบจำลองข้อมูลทั้งหมดหรือเป็นชิ้น ๆ ? มีหลายวิธีเกินไปที่จะตัดสินใจบนพื้นฐานของการมีCV

และอีกแง่มุมที่สำคัญคือมีระบบคอมพิวเตอร์อะไรบ้าง? ข้อมูลถูกจัดเก็บและประมวลผลอย่างไร มีอะไรหายไป - เราจะอธิบายเรื่องนี้ได้อย่างไร

และนี่คือสิ่งที่ยิ่งใหญ่: เรามีข้อมูลที่ดีพอที่จะคาดการณ์ได้ดีหรือไม่? มีตัวแปรรู้จักที่เราไม่มีในชุดข้อมูลของเราหรือไม่? ตัวแทนข้อมูลของเราเป็นสิ่งที่เราพยายามคาดการณ์หรือไม่

การตรวจสอบความถูกต้องไขว้เป็นเครื่องมือที่มีประโยชน์ แต่แทบจะไม่ปฏิวัติเลย ฉันคิดว่าเหตุผลหลักที่คนชอบคือดูเหมือนว่าวิธีการทำสถิติ "คณิตศาสตร์ฟรี" แต่มีหลายพื้นที่ของCVที่ไม่ได้รับการแก้ไขในทางทฤษฎี - เช่นขนาดของรอยพับจำนวนรอยแยก (เราแบ่งข้อมูลออกเป็นกี่ครั้งในกลุ่ม ?) ควรแบ่งแบบสุ่มหรือเป็นระบบ (เช่น ลบรัฐหรือจังหวัดต่อเท่าหรือเพียงแค่สุ่ม 5%)? เมื่อไร เราจะวัดประสิทธิภาพได้อย่างไร เราจะคำนึงถึงความจริงที่ว่าอัตราความผิดพลาดในการพับที่แตกต่างกันนั้นมีความสัมพันธ์กันอย่างไรโดยขึ้นอยู่กับข้อมูลเท่ากันKK-2

นอกจากนี้ผมเองยังไม่ได้เห็นการเปรียบเทียบของการค้าระหว่างเข้มข้นคอมพิวเตอร์CVและวิธีการที่ราคาไม่แพงเช่นREMLหรือแปรผันเบส์ เราจะได้อะไรแลกกับการใช้เวลาในการคำนวณเพิ่มเติม ดูเหมือนว่าCVจะมีค่ามากกว่าในกรณี "small " และ "big " มากกว่า "big small " อย่างใดอย่างหนึ่งในกรณี "big small " ข้อผิดพลาดของตัวอย่างเกือบเท่ากับตัวอย่าง ความผิดพลาดnพีnพีnพี


9
พูดจาโผงผางดี คงจะอ่านง่ายกว่านี้ถ้าคุณใช้ตัวพิมพ์ใหญ่เป็นครั้งคราวแม้ว่า ...
MånsT

4

คำอธิบายของเขาเกี่ยวกับข้อผิดพลาดทั่วไปใน data mining ดูเหมือนสมเหตุสมผล คำอธิบายของเขาในสิ่งที่เขาไม่ได้ทำให้รู้สึกใด ๆ เขาหมายถึงอะไรเมื่อเขาพูดว่า "โดยทั่วไปแล้วคุณจะได้อยู่ที่ไหนสักแห่งจริง ๆ ถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง" จากนั้น SAS และ IBM ที่น่ารังเกียจก็ไม่ได้ทำให้เขาดูฉลาดมากเช่นกัน ผู้คนสามารถประสบความสำเร็จในตลาดโดยไม่เข้าใจสถิติและส่วนหนึ่งของความสำเร็จคือโชค มันผิดที่จะปฏิบัติต่อนักธุรกิจที่ประสบความสำเร็จราวกับว่าพวกเขาเป็นกูรูแห่งการพยากรณ์


1
ไม่ชัดเจนว่าข้อความที่ยกมานั้นมีความหมายอย่างไร? ขึ้นอยู่กับว่าจะใช้โมเดลนี้อย่างไรสิ่งที่เขาบอกว่าเขาทำได้ดีพอสมควร ตัวอย่างเช่น "Takeaway" หลักจากความท้าทายของ Netflix ดูเหมือนจะเป็นพลังของ "การผสมแบบจำลอง" ตราบใดที่สิ่งหนึ่งมีความต้องการการตีความน้อยมาก ในกรณีดังกล่าวประสิทธิภาพการทำงานแบบ "เฉลี่ย" บางอย่างของแบบจำลองที่อยู่ในการพิจารณาอาจมีความเกี่ยวข้องอย่างสมบูรณ์
พระคาร์ดินัล

@cardinal: คุณสามารถสร้างคำตอบจากความคิดที่น่าสนใจเหล่านี้ได้หรือไม่? จะดีมากขอบคุณ!
vonjd

2
@cardinal อาจจะชัดเจนสำหรับคุณ แต่จากนั้นอธิบายประโยคที่ว่า "คุณกำลังจะไปที่ไหนสักแห่งถ้าผลลัพธ์นอกกลุ่มตัวอย่างมากกว่า 50 เปอร์เซ็นต์ของตัวอย่าง" หากคุณกำลังบอกว่าค่าเฉลี่ยของโมเดลในแบบจำลองนั้นมีประสิทธิภาพแน่นอนว่าฉันเห็นด้วยกับสิ่งนั้น การเพิ่มประสิทธิภาพได้รับการพิสูจน์แล้วว่าทำงานได้ดีในหลาย ๆ แอปพลิเคชัน แต่ฉันไม่เห็นว่าคำพูดของ Woodriff นั้นมาจากไหน
Michael R. Chernick

2
เห็นได้ชัดว่าฉันไม่ทราบรายละเอียดของสิ่งที่นาย Woodriff อ้าง แต่การตีความของฉันตามข้อความที่ตัดตอนมานี้เป็นสิ่งที่มีผลต่อ: "[ในแอปพลิเคชันของฉัน] หากประสิทธิภาพเฉลี่ยนอกตัวอย่าง ฉันเห็นว่ามีความเกี่ยวข้อง] อย่างน้อยครึ่งหนึ่งของประสิทธิภาพในตัวอย่างหลังจากติดตั้งโมเดลแล้วก็มีความหมายสำหรับแอปพลิเคชันของฉัน " ฉันเป็นนักคณิตศาสตร์ / นักสถิติดังนั้นฉันต้องการคำเตือน ถ้าฉันเป็นผู้จัดการกองทุนป้องกันความเสี่ยงมองหาการรับรู้ภายนอกฉันอาจจะยิ่งใหญ่และแน่นอนในคำพูดของฉัน
พระคาร์ดินัล

1
@cardinal ดังนั้นใช้อัตราความผิดพลาดเป็นตัวชี้วัดประสิทธิภาพแล้วคุณตีความ Woodriff เพื่อบอกว่าถ้าอัตราความผิดพลาดในตัวอย่างเป็น 5% และอัตราข้อผิดพลาดจากตัวอย่างนั้นเป็น 10% วิธีการนั้นดีหรือไม่ ทำไมไม่เพียงแค่ดูจากประสิทธิภาพตัวอย่างเพื่อตัดสินใจ? ฉันคิดว่าอัตราส่วนของ outac ตัวอย่างต่อการปฏิบัติงานในตัวอย่างจะบอกคุณบางอย่างเกี่ยวกับวิธีการที่เชื่อถือได้ / ไม่น่าเชื่อถือในการประมาณการอัตราข้อผิดพลาดตัวอย่างคือ แต่ฉันไม่เห็นมันเข้าสู่การประเมินประสิทธิภาพของตัวจําแนก ฉันยังไม่เห็นว่ารูปแบบใดที่ผสมลงในคำพูดของเขา
Michael R. Chernick

4

คุณสามารถมองหารูปแบบที่โมเดลโดยเฉลี่ยแล้วตัวอย่างทั้งหมดยังคงทำได้ดี

ความเข้าใจของฉันเกี่ยวกับรูปแบบคำที่นี่คือเขาหมายถึงสภาพตลาดที่แตกต่างกัน วิธีการที่ไร้เดียงสาจะวิเคราะห์ข้อมูลที่มีอยู่ทั้งหมด (เราทุกคนรู้ว่ามีข้อมูลที่ดีกว่า) เพื่อฝึกฝนตัวแบบโค้งที่เหมาะสมที่สุดจากนั้นเรียกใช้ข้อมูลทั้งหมดและทำการค้ากับมันตลอดเวลา

ผู้จัดการกองทุนป้องกันความเสี่ยงที่ประสบความสำเร็จมากขึ้นและผู้ค้าอัลกอริทึมใช้ความรู้การตลาดของพวกเขา ตัวอย่างครึ่งชั่วโมงแรกของช่วงการซื้อขายสามารถผันผวนได้มากขึ้น ดังนั้นพวกเขาจะลองแบบจำลองกับข้อมูลทั้งหมด แต่เพียงครึ่งชั่วโมงแรกและในข้อมูลทั้งหมด แต่ไม่รวมครึ่งชั่วโมงแรก พวกเขาอาจค้นพบว่าแบบจำลองสองแบบของพวกเขาทำได้ดีในครึ่งชั่วโมงแรก แต่แปดคนนั้นเสียเงิน ในขณะที่เมื่อพวกเขาไม่รวมครึ่งชั่วโมงแรกโมเดลทั้งเจ็ดของพวกเขาทำเงินสามสูญเสียเงิน

แต่แทนที่จะใช้นางแบบที่ชนะทั้งสองคนและใช้พวกเขาในครึ่งชั่วโมงแรกของการซื้อขายพวกเขากล่าวว่านั่นเป็นช่วงเวลาที่เลวร้ายของการซื้อขายอัลกอริธึมและเราจะไม่ทำการค้าเลย ส่วนที่เหลือของวันพวกเขาจะใช้เจ็ดรุ่นของพวกเขา ดูเหมือนว่าตลาดจะทำนายได้ง่ายกว่าด้วยการเรียนรู้ของเครื่องในเวลานั้นดังนั้นโมเดลเหล่านั้นจึงมีโอกาสที่จะเชื่อถือได้มากขึ้นในอนาคต (เวลาของวันไม่ใช่รูปแบบเดียวโดยปกติคนอื่น ๆ มักเกี่ยวข้องกับเหตุการณ์ข่าวเช่นตลาดมีความผันผวนมากขึ้นก่อนที่จะมีการประกาศตัวเลขเศรษฐกิจที่สำคัญ)

นั่นคือการตีความของฉันในสิ่งที่เขาพูด มันอาจจะผิดทั้งหมด แต่ฉันหวังว่ามันยังคงเป็นอาหารที่มีประโยชน์สำหรับความคิดของใครบางคน


2

ในฐานะมืออาชีพด้านการเงินฉันรู้บริบทที่เพียงพอว่าคำแถลงดังกล่าวไม่มีความคลุมเครือ อนุกรมเวลาทางการเงินมักมีการเปลี่ยนแปลงระบอบการปกครองการแบ่งโครงสร้างและแนวความคิดดังนั้นการตรวจสอบความถูกต้องตามที่ปฏิบัติในอุตสาหกรรมอื่นไม่ประสบความสำเร็จในการประยุกต์ใช้ทางการเงิน ในส่วนที่สองเขาอ้างถึงตัวชี้วัดทางการเงินทั้งผลตอบแทนการลงทุนในอัตราส่วน Sharpe (ผลตอบแทนในตัวเศษ) ไม่ใช่ MSE หรือฟังก์ชั่นการสูญเสียอื่น ๆ หากกลยุทธ์ในกลุ่มตัวอย่างให้ผลตอบแทน 10% จากนั้นในการซื้อขายจริงมันอาจจะผลิตได้จริงเพียง 5% ส่วน "การปฏิวัติ" นั้นแน่นอนที่สุดเกี่ยวกับวิธีการวิเคราะห์กรรมสิทธิ์ของเขา


คำถามสำหรับ onlyvix: คุณรู้หรือไม่ว่างานใด ๆ ที่ใช้ตัวชี้วัดทางการเงินของคุณเป็นเครื่องมือสำหรับการปรับพารามิเตอร์ให้เหมาะสมนั่นคือการปรับพารามิเตอร์ให้ตรงที่สุดโดยการเพิ่มตัวชี้วัดนั้นให้สูงสุดแทนที่จะใช้โอกาสสูงสุด?
kjetil b halvorsen

@kbh ไม่ใช่ตัวชี้วัดทางการเงินของฉันการเพิ่มประสิทธิภาพอัตราส่วนชาร์ปเป็นเรื่องธรรมดามาก ตัวอย่างหนึ่งที่ด้านบนของหัวของฉันssrn.com/abstract=962461 - ไม่มีการพัฒนาแบบจำลองทางสถิติที่แน่นอน แต่กฎการซื้อขายที่สร้างขึ้นเพื่อ (ในเงื่อนไขทั่วไปมาก) เพิ่มผลตอบแทนและลดความเสี่ยง
onlyvix.blogspot.com
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.