อะไรคือความสัมพันธ์ระหว่างสหสัมพันธ์และสาเหตุในการเรียนรู้ของเครื่อง?


13

มันเป็นความจริงที่รู้จักกันดีว่า "ความสัมพันธ์ไม่ได้เป็นสาเหตุที่เท่าเทียมกัน" แต่การเรียนรู้ของเครื่องดูเหมือนจะเกือบทั้งหมดขึ้นอยู่กับสหสัมพันธ์ ฉันกำลังทำงานกับระบบเพื่อประเมินประสิทธิภาพของนักเรียนตามคำถามตามผลงานที่ผ่านมา ไม่เหมือนกับงานอื่น ๆ เช่นการค้นหาโดย Google สิ่งนี้ไม่เหมือนกับระบบที่สามารถหาได้ง่าย - ดังนั้นสาเหตุไม่เกี่ยวข้องกับเรื่องนั้น

เห็นได้ชัดว่าถ้าเราต้องการทำการทดลองเพื่อปรับระบบให้เหมาะสมเราจะต้องใส่ใจกับความแตกต่างของความสัมพันธ์ / สาเหตุ แต่จากมุมมองของการสร้างระบบเพื่อเลือกคำถามที่น่าจะเป็นระดับความยากที่เหมาะสมความแตกต่างนี้มีความสำคัญหรือไม่?


โปรดระบุหรืออย่างน้อยอ้างถึงสิ่งที่คุณหมายถึงโดยสาเหตุความสัมพันธ์ใน "ความสัมพันธ์ไม่เท่ากับสาเหตุ"
seteropere

คำตอบ:


11

AI ไม่ได้ทำงานด้วยความสัมพันธ์กันทั้งหมดเครือข่ายความเชื่อแบบเบย์นั้นสร้างขึ้นจากความน่าจะเป็นที่ A เป็นสาเหตุของ B

ฉันกำลังทำงานกับระบบเพื่อประเมินประสิทธิภาพของนักเรียนตามคำถามตามผลงานที่ผ่านมา

ฉันไม่คิดว่าคุณต้องการสาเหตุสำหรับสิ่งนี้ ประสิทธิภาพที่ผ่านมาไม่ได้ทำให้ประสิทธิภาพปัจจุบัน การตอบคำถามต้นไม่ทำให้คำตอบสำหรับคำถามในภายหลัง

แต่จากมุมมองของการสร้างระบบเพื่อเลือกคำถามที่น่าจะเป็นระดับความยากที่เหมาะสมความแตกต่างนี้มีความสำคัญหรือไม่?

ไม่ไม่ใช่สำหรับตัวอย่างของคุณ ฉันคิดว่าความสัมพันธ์ (หรือการคาดการณ์อย่างง่าย) จะช่วยแก้ปัญหาของคุณได้เป็นอย่างดี มอบหมายคะแนนความยากลำบากให้กับคำถามแต่ละข้อจากนั้นป้อนคำถามให้กับนักเรียนในระดับที่ยากขึ้น (ซึ่งเป็นวิธีการสอบที่ทำงานได้มากที่สุด) และเมื่อนักเรียนเริ่มทำผิดพวกคุณสามารถไขปัญหาได้ นั่นเป็นอัลกอริทึมข้อเสนอแนะที่คล้ายกับการลดข้อผิดพลาดที่เกิดขึ้นกับเซลล์ประสาทใน perceptron หลายชั้น พื้นที่อินพุทที่ไม่สำคัญเช่นนี้กำลังตัดสินใจว่าคำถามที่ยากคืออะไร!

ตัวอย่างที่ดีกว่าของสาเหตุใน AI คือ:

รถของฉันช้าลง คันเร่งของฉันอยู่บนพื้น มีเสียงรบกวนไม่มาก มีไฟบนแผงหน้าปัด ความน่าจะเป็นที่ฉันหมดเชื้อเพลิงคืออะไร?

ในกรณีนี้น้ำมันหมดทำให้รถยนต์ชะลอตัวลง นี่เป็นปัญหาที่เครือข่าย Bayesian Belief แก้ได้อย่างแม่นยำ


"ฉันไม่คิดว่าคุณต้องการสาเหตุสำหรับสิ่งนี้การทำงานที่ผ่านมาไม่ได้ทำให้เกิดการทำงานในปัจจุบันการตอบคำถามก่อนหน้านี้ไม่ก่อให้เกิดคำตอบสำหรับคำถามต่อไป" - ความจริงที่ว่านักเรียนทำแบบฝึกหัดเสร็จอาจทำให้พวกเขาทำงานได้ดีขึ้นในแบบฝึกหัดอื่น (เราให้คำแนะนำและแบบฝึกหัดให้พวกเขา)
Casebash

แต่ฉันคิดว่าคุณพูดถูกมันไม่ได้เกี่ยวกับความสัมพันธ์กับสาเหตุมากนัก แต่ไม่ว่ามันจะสัมพันธ์กับสาเหตุหรือไม่ (เช่นนักเรียนในชั้นเรียนที่ทำได้ดีในหัวข้อทางเรขาคณิตเพราะครูพูดถึงรายละเอียดมากกว่านักเรียนที่ เสร็จสิ้นหัวข้อที่ยากที่สุดที่มีแนวโน้มจะมีการแสดงสูงเพราะพวกเขาเป็นคนเดียวที่ได้รับมัน)
Casebash

อา! นั่นเป็นเรื่องที่น่าสนใจ: การออกกำลังกายให้เสร็จและรู้ว่าผลลัพธ์เป็นสาเหตุของคำถามที่ดีกว่า แต่นั่นไม่สามารถสังเกตได้ที่นี่ สิ่งเดียวที่คุณสังเกตคือคำถามสอบซึ่งสัมพันธ์กัน ความสัมพันธ์ไม่ได้สกปรกก็ดีถ้าพูดว่ากระบวนการทางสถิติสองกระบวนการมีความสัมพันธ์กัน
Dr Rob Lang

สาเหตุ Bเป็นหนึ่งการตีความของเครือข่ายความเชื่อ
seteropere

6

การเรียนรู้ของเครื่องดูเหมือนจะเกือบทั้งหมดขึ้นอยู่กับสหสัมพันธ์

ฉันไม่คิดอย่างนั้นไม่ใช่อย่างน้อยที่สุด ตัวอย่างเช่นสมมติฐานหลักสำหรับอัลกอริทึม ML ในแง่ของการวิเคราะห์ PACและการวิเคราะห์มิติ VC คือข้อมูลการฝึกอบรม / การทดสอบนั้นมาจากการกระจายตัวแบบเดียวกับที่ข้อมูลในอนาคตจะได้รับ

ดังนั้นในระบบของคุณคุณต้องสมมติว่านักเรียนแต่ละคนมีการกระจายความน่าจะเป็นแบบมีเงื่อนไขบางอย่างที่สร้างคำตอบสำหรับคำถามประเภทใดประเภทหนึ่งในหัวข้อเฉพาะ อีกข้อสันนิษฐานที่เป็นปัญหามากขึ้นที่คุณต้องทำคือการแจกจ่ายนี้จะไม่เปลี่ยนแปลง (หรือไม่เปลี่ยนแปลงอย่างรวดเร็ว)


2

ฉันเห็นด้วยกับคำตอบก่อนหน้า

อย่างไรก็ตามหากคุณสนใจที่จะดูความสัมพันธ์ / สาเหตุโดยทั่วไปรายการสองรายการที่คุณอาจต้องการดูคือ:


2

นอกเหนือจากคำตอบอื่น ๆ แล้วยังมีหัวข้อที่น่าสนใจ - หากคุณเลือกคุณสมบัติด้วยตนเองคุณอาจต้องการคิดถึง 'สหสัมพันธ์แบบบังเอิญ' เพื่อลดการ overfitting เช่นหลีกเลี่ยงฟีเจอร์ที่สัมพันธ์กับข้อมูลการฝึกอบรมของคุณ ไม่ควรมีความสัมพันธ์ในกรณีทั่วไป - ไม่มีความสัมพันธ์เชิงสาเหตุ แต่อย่างใด

เป็นตัวอย่างที่หยาบคายสมมติว่าคุณใช้ตารางข้อมูลของผลลัพธ์การสอบประวัติและพยายามทำนายเกณฑ์ความล้มเหลว / ผ่าน คุณเพียงแค่รวมเขตข้อมูลที่มีอยู่ทั้งหมดไว้ในฟีเจอร์และตารางจะมีวันเกิดของนักเรียนด้วย ตอนนี้อาจมีความสัมพันธ์ที่ถูกต้องในข้อมูลการฝึกอบรมที่นักเรียนที่เกิดในวันที่ 12 กุมภาพันธ์มักจะผ่านและนักเรียนที่เกิดในวันที่ 13 กุมภาพันธ์มักจะล้มเหลว ... แต่เนื่องจากไม่มีความสัมพันธ์เชิงสาเหตุที่ควรได้รับการยกเว้น

ในชีวิตจริงมันค่อนข้างละเอียดกว่านี้เล็กน้อย แต่ช่วยแยกความสัมพันธ์ที่เหมาะสมกับข้อมูลของคุณกับสัญญาณที่ถูกต้องที่ควรเรียนรู้ และความสัมพันธ์ที่เป็นเพียงรูปแบบที่เกิดจากสัญญาณรบกวนแบบสุ่มในชุดการฝึกอบรมของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.