“ เอนโทรปีและการได้รับสารสนเทศ” คืออะไร?


338

ฉันกำลังอ่านหนังสือเล่มนี้ ( NLTK ) และมันสับสน เอนโทรปีถูกกำหนดเป็น :

เอนโทรปีคือผลรวมของความน่าจะเป็นของแต่ละป้ายคูณความน่าจะเป็นบันทึกของป้ายกำกับนั้น

ฉันจะใช้เอนโทรปีและเอนโทรปีสูงสุดในแง่ของการทำเหมืองข้อความได้อย่างไร มีใครให้ฉันเป็นตัวอย่างง่ายๆและเรียบง่าย (ภาพ) ได้ไหม


1
ทางออกที่ดีและใช้งานง่ายmath.stackexchange.com/questions/331103/…
Ravi G

คำตอบที่ดีและใช้งานง่ายสำหรับคำถาม thsi math.stackexchange.com/questions/331103/…
Ravi G

วิดีโอให้ดีและคำอธิบายง่ายๆ
Grijesh ชัวฮาน

คำตอบ:


1048

ผมถือว่าเอนโทรปีถูกกล่าวถึงในบริบทของการสร้างต้นไม้ตัดสินใจ

เพื่อแสดงให้เห็นว่าจินตนาการถึงภาระหน้าที่ของการเรียนรู้ที่จะจำแนกชื่อแรกออกเป็นกลุ่มชาย / หญิง ที่ได้รับรายชื่อแต่ละชื่อที่มีป้ายกำกับอย่างใดอย่างหนึ่งmหรือfเราต้องการเรียนรู้รูปแบบที่เหมาะกับข้อมูลและสามารถใช้ในการทำนายเพศของชื่อใหม่ที่มองไม่เห็น

name       gender
-----------------        Now we want to predict 
Ashley        f              the gender of "Amro" (my name)
Brian         m
Caroline      f
David         m

ขั้นแรกคือการตัดสินใจว่าคุณลักษณะของข้อมูลใดที่เกี่ยวข้องกับคลาสเป้าหมายที่เราต้องการทำนาย ตัวอย่างคุณสมบัติบางประการประกอบด้วย: ตัวอักษรตัวแรก / ตัวสุดท้ายความยาวจำนวนเสียงสระมันลงท้ายด้วยเสียงสระ ฯลฯ ดังนั้นหลังจากการแยกฟีเจอร์ข้อมูลของเราจะมีลักษณะดังนี้:

# name    ends-vowel  num-vowels   length   gender
# ------------------------------------------------
Ashley        1         3           6        f
Brian         0         2           5        m
Caroline      1         4           8        f
David         0         2           5        m

เป้าหมายคือการสร้างต้นไม้ตัดสินใจ ตัวอย่างของต้นไม้จะเป็น:

length<7
|   num-vowels<3: male
|   num-vowels>=3
|   |   ends-vowel=1: female
|   |   ends-vowel=0: male
length>=7
|   length=5: male

โดยทั่วไปแต่ละโหนดเป็นตัวแทนของการทดสอบดำเนินการในคุณลักษณะเดียวและเราไปทางซ้ายหรือขวาขึ้นอยู่กับผลของการทดสอบ เราทำการสำรวจต้นไม้จนกว่าจะถึงโหนดใบซึ่งมีการทำนายระดับ ( mหรือf)

ดังนั้นถ้าเราเรียกชื่อAmroลงต้นไม้ต้นนี้เราจะเริ่มต้นด้วยการทดสอบ " คือความยาว <7? " และคำตอบคือใช่แล้วเราจึงลงไปที่สาขานั้น ต่อไปนี้สาขาการทดสอบต่อไป " คือจำนวนของสระ <3? " อีกครั้งประเมินจริง สิ่งนี้นำไปสู่โหนดใบที่มีป้ายกำกับmและทำให้การคาดคะเนเป็นเพศชาย (ซึ่งฉันเกิดขึ้นดังนั้นต้นไม้จึงทำนายผลลัพธ์ได้อย่างถูกต้อง )

แผนผังการตัดสินใจสร้างขึ้นจากบนลงล่างแต่คำถามคือคุณเลือกคุณลักษณะที่จะแยกที่แต่ละโหนดได้อย่างไร คำตอบคือค้นหาคุณสมบัติที่ดีที่สุดในการแยกคลาสเป้าหมายออกเป็นโหนดชายด์ที่เป็นไปได้ที่ดีที่สุด (เช่น: โหนดที่ไม่มีส่วนผสมของทั้งชายและหญิง

วัดนี้มีความบริสุทธิ์ที่เรียกว่าข้อมูล เพราะมันหมายถึงจำนวนข้อมูลที่คาดว่าจะต้องระบุว่าควรมีการจำแนกประเภทอินสแตนซ์ใหม่ (ชื่อ) หรือไม่โดยระบุตัวอย่างที่มาถึงโหนด เราคำนวณตามจำนวนของคลาสชายและหญิงที่โหนด

เอนโทรปีในทางตรงกันข้ามเป็นการวัดความไม่บริสุทธิ์ (ตรงกันข้าม) มันถูกกำหนดไว้สำหรับคลาสไบนารีที่มีค่าa/bเป็น:

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

นี้ฟังก์ชั่นเอนโทรปีไบนารีเป็นที่ปรากฎในภาพด้านล่าง (ตัวแปรสุ่มสามารถใช้เวลาหนึ่งในสองค่า) มันถึงค่าสูงสุดเมื่อความน่าจะเป็นp=1/2หมายความว่าp(X=a)=0.5หรือในทำนองเดียวกันp(X=b)=0.5มีโอกาส 50% / 50% ในการเป็นอย่างใดอย่างหนึ่งaหรือb(ความไม่แน่นอนสูงสุดอยู่ที่) ฟังก์ชั่นเอนโทรปีคืออย่างน้อยศูนย์เมื่อความน่าจะเป็นp=1หรือp=0ด้วยความเชื่อมั่นที่สมบูรณ์ ( p(X=a)=1หรือp(X=a)=0ตามลำดับหมายถึงหลังp(X=b)=1)

https://en.wikipedia.org/wiki/File:Binary_entropy_plot.svg

แน่นอนว่านิยามของเอนโทรปีสามารถวางนัยสำหรับตัวแปรสุ่มแบบแยกแบบ X ที่มีผลลัพธ์ N (ไม่ใช่แค่สอง):

เอนโทรปี

( logโดยปกติในสูตรจะใช้เป็นลอการิทึมไปยังฐาน 2 )


กลับไปที่ภารกิจการจำแนกชื่อของเราลองดูตัวอย่าง ลองจินตนาการถึงบางจุดในระหว่างกระบวนการสร้างต้นไม้เรากำลังพิจารณาการแยกดังต่อไปนี้:

     ends-vowel
      [9m,5f]          <--- the [..,..] notation represents the class
    /          \            distribution of instances that reached a node
   =1          =0
 -------     -------
 [3m,4f]     [6m,1f]

ที่คุณสามารถดูก่อนที่จะแยกเรามี 9 เพศชายและเพศหญิง 5 คือและP(m)=9/14 P(f)=5/14ตามคำนิยามของเอนโทรปี:

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

ต่อไปเราเปรียบเทียบกับเอนโทรปีที่คำนวณหลังจากพิจารณาการแยกโดยดูที่สาขาย่อยของเด็กสองแห่ง ในสาขาด้านซ้ายของends-vowel=1เรามี:

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

และสาขาที่ถูกต้องของends-vowel=0เรามี:

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

เรารวมเอนโทรปีด้านซ้าย / ขวาโดยใช้จำนวนอินสแตนซ์แต่ละสาขาเป็นตัวประกอบน้ำหนัก (อินสแตนซ์ 7 ตัวถูกทิ้งและ 7 อินสแตนซ์ถูกต้อง) และรับเอนโทรปีสุดท้ายหลังจากการแยก:

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

ตอนนี้โดยการเปรียบเทียบเอนโทรปีก่อนและหลังการแยกเราได้รับการวัดการรับข้อมูลหรือจำนวนข้อมูลที่เราได้รับจากการทำการแยกโดยใช้คุณสมบัติพิเศษนั้น:

Information_Gain = Entropy_before - Entropy_after = 0.1518

คุณสามารถตีความการคำนวณข้างต้นดังต่อไปนี้: โดยทำการแยกด้วยend-vowelsคุณลักษณะเราสามารถลดความไม่แน่นอนในผลลัพธ์การทำนายต้นไม้ย่อยได้ด้วยจำนวนเล็กน้อย 0.1518 (วัดเป็นบิตเป็นหน่วยของข้อมูล )

ที่โหนดของต้นไม้แต่ละการคำนวณนี้จะดำเนินการสำหรับทุกคุณลักษณะและคุณสมบัติที่มีการได้รับข้อมูลที่ใหญ่ที่สุดถูกเลือกสำหรับการแยกในโลภลักษณะ (จึงนิยมคุณลักษณะที่ผลิตบริสุทธิ์แยกกับความไม่แน่นอนต่ำ / เอนโทรปี) กระบวนการนี้ถูกนำไปใช้ซ้ำจากรูทโหนดลงและหยุดเมื่อโหนดโหนดมีอินสแตนซ์ทั้งหมดที่มีคลาสเดียวกัน (ไม่จำเป็นต้องแยกอีกต่อไป)

โปรดทราบว่าฉันข้ามบางรายละเอียดที่อยู่นอกเหนือขอบเขตของการโพสต์นี้รวมถึงวิธีการจัดการกับคุณลักษณะที่เป็นตัวเลข , ค่าที่ขาดหาย , overfittingและการตัดแต่งกิ่งต้นไม้ ฯลฯ ..


1
@ all3fox: นี่คือคำอธิบายในย่อหน้าสุดท้ายกระบวนการควรหยุดสำหรับสาขานั้นถ้ามันไปยังโหนดบริสุทธิ์ (โหนดใบไม้ที่ซึ่งอินสแตนซ์ทั้งหมดอยู่ในคลาสเดียวกันดังนั้นจึงไม่สามารถแยกได้อีก) โหนดจึงทำนายคลาสที่มีอยู่เท่านั้น ..
Amro

3
@ all3fox: ในทางปฏิบัติการใช้โหนดบริสุทธิ์ล้วนก่อให้เกิดต้นไม้ตัดสินใจที่ค่อนข้างลึกซึ่งได้รับข้อมูลมากเกินไป (เช่นต้นไม้ที่พอดีกับข้อมูลการฝึกอบรมมากเกินไป แต่นั่นทำให้ข้อมูลทั่วไปไม่ดีพอที่จะไม่แสดงในชุดฝึกอบรม) ดังนั้นเรามักจะหยุดเมื่อเราไปถึงอินสแตนซ์จำนวนน้อยที่สุดในโหนดใบไม้ (และเพียงแค่ทำนายคนส่วนใหญ่) และ / หรือทำการตัดแต่งกิ่ง (ดูลิงค์ Wikipedia ที่มีให้ด้านบนเพื่อเรียนรู้เพิ่มเติม)
Amro

3
@Jas: นี่อธิบายได้ดีที่นี่: en.wikipedia.org/wiki/…
Amro

1
@Rami: ถูกต้องเพื่อหลีกเลี่ยงปัญหาเช่นoverfittingต้นไม้ขนาดเล็กเป็นที่ต้องการมากกว่าต้นไม้ใหญ่ (เช่นการตัดสินใจถึงการทดสอบน้อยลง) โปรดทราบว่าฮิวริสติกที่เลือกคุณลักษณะการแยกเป็นอัลกอริธึมการค้นหาโลภดังนั้นต้นไม้ที่สร้างขึ้นจึงไม่รับประกันว่าจะเล็กที่สุดเท่าที่จะเป็นไปได้ในพื้นที่ของต้นไม้ที่เป็นไปได้ทั้งหมด (และไม่รับประกันว่าจะผิดพลาด ) อันที่จริงแล้วนี่เป็นปัญหาที่เกิดขึ้นกับปัญหาNP-Complete ...
Amro

1
@Rami: น่าสนใจมีวิธีการเรียนรู้ทั้งมวลที่ใช้แนวทางที่แตกต่างกัน แนวคิดหนึ่งคือการสุ่มอัลกอริทึมการเรียนรู้โดยเลือกชุดย่อยของคุณลักษณะที่แต่ละตัวเลือกผู้สมัครและสร้างกลุ่มของต้นไม้แบบสุ่มเหล่านี้และเฉลี่ยผลลัพธ์ของพวกเขา นอกจากนี้ยังมีมูลค่าการตรวจสอบขั้นตอนวิธีการเช่นสุ่มป่า
Amro

45

the measure of informationเพื่อเริ่มต้นกับมันจะดีที่สุดที่จะเข้าใจ

เราทำmeasureข้อมูลได้อย่างไร

เมื่อสิ่งที่ไม่น่าจะเกิดขึ้นเราบอกว่ามันเป็นข่าวใหญ่ นอกจากนี้เมื่อเราพูดสิ่งที่คาดเดาได้ก็ไม่น่าสนใจจริงๆ ดังนั้นการหาจำนวนนี้interesting-nessฟังก์ชั่นควรตอบสนอง

  • ถ้าความน่าจะเป็นของเหตุการณ์เท่ากับ 1 (คาดการณ์ได้) ฟังก์ชันจะให้ 0
  • หากความน่าจะเป็นของเหตุการณ์ใกล้เคียงกับ 0 ดังนั้นฟังก์ชันควรให้จำนวนสูง
  • ถ้าความน่าจะเป็น 0.5 เหตุการณ์เกิดขึ้นมันก็ให้one bitข้อมูล

หนึ่งมาตรการตามธรรมชาติที่ตอบสนองข้อ จำกัด คือ

I(X) = -log_2(p)

ที่PXคือความน่าจะเป็นของเหตุการณ์ และหน่วยอยู่ในbitคอมพิวเตอร์บิตเดียวกันใช้ 0 หรือ 1

ตัวอย่างที่ 1

พลิกเหรียญยุติธรรม:

เราสามารถได้รับข้อมูลเท่าไหร่จากการพลิกหนึ่งเหรียญ?

ตอบ: -log(p) = -log(1/2) = 1 (bit)

ตัวอย่างที่ 2

หากดาวตกชนกับโลกในวันพรุ่งนี้p=2^{-22}เราก็จะได้รับข้อมูล 22 บิต

ถ้าพระอาทิตย์ขึ้นในวันพรุ่งนี้p ~ 1นั่นก็คือข้อมูล 0 บิต

เอนโทรปี

ดังนั้นถ้าเราคาดหวังกับinteresting-nessเหตุการณ์Yมันก็คือเอนโทรปี คือเอนโทรปีคือค่าที่คาดหวังของเหตุการณ์ที่น่าสนใจ

H(Y) = E[ I(Y)]

อย่างเป็นทางการยิ่งขึ้นเอนโทรปีคือจำนวนบิตที่คาดการณ์ของเหตุการณ์

ตัวอย่าง

Y = 1: เหตุการณ์ X เกิดขึ้นกับความน่าจะเป็น p

Y = 0: เหตุการณ์ X ไม่เกิดขึ้นกับความน่าจะเป็น 1-p

H(Y) = E[I(Y)] = p I(Y==1) + (1-p) I(Y==0) 
     = - p log p - (1-p) log (1-p)

ล็อกฐาน 2 สำหรับบันทึกทั้งหมด


22

ฉันให้กราฟิกกับคุณไม่ได้ แต่บางทีฉันสามารถอธิบายได้อย่างชัดเจน

สมมติว่าเรามีช่องข้อมูลเช่นแสงที่กะพริบหนึ่งครั้งทุกวันไม่ว่าจะเป็นสีแดงหรือสีเขียว มีข้อมูลมากน้อยแค่ไหน? การเดาครั้งแรกอาจเป็นหนึ่งบิตต่อวัน แต่ถ้าเราเพิ่มสีน้ำเงินเพื่อให้ผู้ส่งมีสามตัวเลือก เราต้องการให้มีการวัดข้อมูลที่สามารถจัดการกับสิ่งอื่นนอกเหนือจากพลังของสอง แต่ยังคงเป็นสารเติมแต่ง (วิธีที่คูณจำนวนข้อความที่เป็นไปได้โดยสองเพิ่มหนึ่งบิต) เราสามารถทำได้โดยการบันทึก2 (จำนวนข้อความที่เป็นไปได้) แต่ปรากฎว่ามีวิธีทั่วไปมากขึ้น

สมมติว่าเรากลับไปเป็นสีแดง / เขียว แต่หลอดไฟสีแดงหมดแล้ว (นี่เป็นความรู้ทั่วไป) เพื่อที่หลอดไฟจะต้องกะพริบเป็นสีเขียวเสมอ ช่องนี้ไม่มีประโยชน์เรารู้ว่าแฟลชต่อไปจะเป็นอย่างไรดังนั้นแฟลชจึงไม่มีข้อมูลไม่มีข่าว ตอนนี้เราซ่อมหลอดไฟ แต่กำหนดกฎว่าหลอดไฟสีแดงอาจไม่กะพริบสองครั้งติดต่อกัน เมื่อหลอดไฟกระพริบสีแดงเรารู้ว่าแฟลชต่อไปคืออะไร หากคุณพยายามส่งกระแสข้อมูลบิตโดยช่องนี้คุณจะพบว่าคุณต้องเข้ารหัสด้วยแสงแฟลชมากกว่าที่คุณมีบิต (จริง ๆ แล้วเพิ่มขึ้น 50%) และถ้าคุณต้องการอธิบายลำดับของแฟลชคุณสามารถทำได้โดยใช้บิตน้อยลง เช่นเดียวกันถ้าแฟลชแต่ละตัวมีความเป็นอิสระ (ปราศจากบริบท) แต่แฟลชสีเขียวทั่วไปมากกว่าสีแดง: ยิ่งมีความน่าจะเป็นในการเบลอน้อยลงคุณจะต้องอธิบายลำดับและข้อมูลมีน้อยลงเรื่อย ๆ ขีด จำกัด สีเขียวหมดหลอดไฟ

ปรากฎว่ามีวิธีการวัดปริมาณข้อมูลในสัญญาณตามความน่าจะเป็นของสัญลักษณ์ต่าง ๆ หากความน่าจะเป็นที่จะได้รับสัญลักษณ์ x iคือ p iให้พิจารณาปริมาณ

-log p i

ยิ่งiเล็กลงเท่าไหร่ค่ายิ่งมาก หาก x iกลายเป็นสองเท่าไม่น่าเป็นไปได้ค่านี้จะเพิ่มขึ้นตามจำนวนเงินที่แน่นอน (บันทึก (2)) สิ่งนี้ควรเตือนให้คุณเพิ่มข้อความหนึ่งบิต

หากเราไม่ทราบว่าสัญลักษณ์จะเป็นอย่างไร (แต่เรารู้ถึงความน่าจะเป็น) เราสามารถคำนวณค่าเฉลี่ยของค่านี้ได้ว่าเราจะได้รับเท่าใดโดยการสรุปความเป็นไปได้ที่แตกต่างกัน:

I = -Σ p i log (p i )

นี่คือเนื้อหาข้อมูลในแฟลชเดียว

หลอดไฟสีแดงหมด: p red = 0, p green = 1, I = - (0 + 0) = 0
สีแดงและสีเขียวสวมใส่ได้: p red = 1/2, p green = 1/2 , I = - (2 * 1/2 * บันทึก (1/2)) = บันทึก (2)
สามสีติดตั้งได้: p i = 1/3, I = - (3 * 1/3 * บันทึก (1/3)) = บันทึก (3)
สีเขียวและสีแดงสีเขียวเป็นสองเท่า: p red = 1/3 , p green = 2/3, I = - (1/3 log (1/3) + 2/3 log (2/3)) = log ( 3) - บันทึก 2/3 (2)

นี่คือเนื้อหาข้อมูลหรือข่าวสารของข่าวสาร มันเป็นสูงสุดเมื่อสัญลักษณ์ที่แตกต่างกันสามารถสวมใส่ได้ หากคุณเป็นนักฟิสิกส์คุณใช้บันทึกธรรมชาติถ้าคุณเป็นนักวิทยาศาสตร์คอมพิวเตอร์คุณใช้บันทึก2และรับบิต


10

ฉันแนะนำให้คุณอ่านเกี่ยวกับทฤษฎีข้อมูลวิธีเบย์และ MaxEnt สถานที่เริ่มต้นคือหนังสือ (พร้อมใช้งานออนไลน์ฟรี) โดย David Mackay:

http://www.inference.phy.cam.ac.uk/mackay/itila/

วิธีการอนุมานเหล่านั้นมีความเป็นทั่วไปมากกว่าการทำเหมืองข้อความและฉันไม่สามารถคิดได้ว่าจะเรียนรู้วิธีการใช้สิ่งนี้กับ NLP ได้อย่างไรโดยไม่ต้องเรียนรู้พื้นฐานทั่วไปที่มีอยู่ในหนังสือเล่มนี้หรือหนังสือแนะนำเบื้องต้นเกี่ยวกับ วิธีการ

การเชื่อมต่อระหว่างเอนโทรปีและทฤษฎีความน่าจะเป็นกับการประมวลผลข้อมูลและการจัดเก็บนั้นลึกมากจริงๆ เพื่อให้ได้รสชาติของมันมีทฤษฎีบทเนื่องจากแชนนอนที่ระบุว่าจำนวนสูงสุดของข้อมูลที่คุณสามารถส่งผ่านโดยไม่มีข้อผิดพลาดผ่านช่องทางการสื่อสารที่มีเสียงดังเท่ากับเอนโทรปีของกระบวนการทางเสียง นอกจากนี้ยังมีทฤษฎีที่เชื่อมโยงว่าคุณสามารถบีบอัดข้อมูลจำนวนหนึ่งเพื่อครอบครองหน่วยความจำขั้นต่ำสุดที่เป็นไปได้ในคอมพิวเตอร์ของคุณกับเอนโทรปีของกระบวนการที่สร้างข้อมูล

ฉันไม่คิดว่ามันจำเป็นจริง ๆ ที่คุณจะต้องเรียนรู้เกี่ยวกับทฤษฎีเหล่านั้นทั้งหมดในทฤษฎีการสื่อสาร แต่มันเป็นไปไม่ได้ที่จะเรียนรู้สิ่งนี้โดยไม่ต้องเรียนรู้พื้นฐานเกี่ยวกับสิ่งที่เป็นเอนโทรปีวิธีคำนวณของมัน ...


มีความคิดเดียวกันกับราฟาเอล มันเหมือนกับถามว่าควอนตัมฟิสิกส์ในสแต็คล้นเป็นพื้นที่กว้างมากที่ไม่ได้กลั่นเป็นคำตอบเดียวดี
Mark Essel

5

เมื่อฉันถูกดำเนินการตามขั้นตอนวิธีการคำนวณเอนโทรปีของภาพผมพบว่าการเชื่อมโยงเหล่านี้ให้ดูที่นี่และที่นี่

นี่คือรหัสหลอกที่ฉันใช้คุณจะต้องปรับให้เข้ากับข้อความมากกว่าภาพ แต่หลักการควรจะเหมือนกัน

//Loop over image array elements and count occurrences of each possible
//pixel to pixel difference value. Store these values in prob_array
for j = 0, ysize-1 do $
    for i = 0, xsize-2 do begin
       diff = array(i+1,j) - array(i,j)
       if diff lt (array_size+1)/2 and diff gt -(array_size+1)/2 then begin
            prob_array(diff+(array_size-1)/2) = prob_array(diff+(array_size-1)/2) + 1
       endif
     endfor

//Convert values in prob_array to probabilities and compute entropy
n = total(prob_array)

entrop = 0
for i = 0, array_size-1 do begin
    prob_array(i) = prob_array(i)/n

    //Base 2 log of x is Ln(x)/Ln(2). Take Ln of array element
    //here and divide final sum by Ln(2)
    if prob_array(i) ne 0 then begin
        entrop = entrop - prob_array(i)*alog(prob_array(i))
    endif
endfor

entrop = entrop/alog(2)

ฉันได้รับรหัสนี้จากที่ไหนสักแห่ง แต่ฉันไม่สามารถขุดลิงค์ออกไปได้


มีฟังก์ชั่นเอนโทรปี () ที่แตกต่างกันมากสำหรับภาพ แต่ไม่มีตัวอย่างที่ดีหรือไม่? วิธีที่คุณสามารถเปรียบเทียบรหัสของคุณเองเอนโทรปีของ Matlab () และรหัสที่นี่mathworks.com/matlabcentral/fileexchange/28692-entropyในระยะหลังนักพัฒนาบอกว่ามันเป็นสัญญาณ 1D แต่ผู้ใช้ให้ขยายไปยัง 2D - - ฟังก์ชั่นเอนโทรปีของคุณจะถือว่าสัญญาณต้นฉบับเป็น 2 บิตและค่อนข้างง่าย สมมติว่าเป็นสัญญาณ ECG ของ MIT-BIH arrythmia (11 บิต) แต่สร้างขึ้นสำหรับภาพ 2D ฉันคิดว่าคุณไม่สามารถใช้ฐาน 2 บิตแบบง่ายได้ในตอนนี้
LéoLéopold Hertz 준영

5

อย่างไม่เป็นทางการ

เอนโทรปีคือความพร้อมของข้อมูลหรือความรู้การขาดข้อมูลจะนำไปสู่ความยากลำบากในการทำนายอนาคตซึ่งเป็นเอนโทรปีสูง (การคาดเดาคำถัดไปในการทำเหมืองข้อความ) และความพร้อมของข้อมูล / ความรู้จะช่วยให้เรา

ข้อมูลที่เกี่ยวข้องทุกประเภทจะลดการใช้พลังงานแบบเอนโทรปีและช่วยให้เราทำนายอนาคตที่เหมือนจริงมากขึ้นข้อมูลนั้นอาจเป็นคำว่า "เนื้อสัตว์" มีอยู่ในประโยคหรือคำว่า "เนื้อสัตว์" ไม่มีอยู่ สิ่งนี้เรียกว่าการได้รับข้อมูล


เป็นทางการ

เอนโทรปีคือการขาดคำสั่งของการคาดการณ์


0

ในขณะที่คุณกำลังอ่านหนังสือเกี่ยวกับ NLTK มันน่าสนใจที่คุณอ่านเกี่ยวกับ MaxEnt Classifier Module http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.maxent

สำหรับการจำแนกประเภทการขุดข้อความขั้นตอนอาจเป็น: การประมวลผลล่วงหน้า (tokenization, นึ่ง, การเลือกคุณสมบัติด้วย Information Gain ... ), การแปลงเป็นตัวเลข (ความถี่หรือ TF-IDF) (ฉันคิดว่านี่เป็นขั้นตอนสำคัญที่จะเข้าใจเมื่อใช้ ข้อความเป็นอินพุตไปยังอัลกอริทึมที่ยอมรับเฉพาะตัวเลข) แล้วจำแนกด้วย MaxEnt ให้แน่ใจว่านี่เป็นเพียงตัวอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.