ออกแบบโครงสร้างพระไตรปิฎก

Buja (พระบูชา ธัมมปูชโก) 2017-06-26 06:56:06 UTC #1

2017.06.19 Monday
05:22 Buja Dhammapujako หลักการคือ เรากำลังทำขั้นตอนที่ 1 ให้มีการจับคู่ wb กับ wl ให้ได้พอแล้ว

แล้วหมายพิกัดไว้ เพื่อให้นักวิชาการบาลีมาตรวจ

13:53 Buja Dhammapujako เราควรจะคิดเผื่อด้วยว่า ในอนาคต จะมีพระไตรปิฎกสแกนเวอร์ชั่นต่างๆ แล้วต้นฉบับหนังสือที่เป็นคำเทศนาครูบาอาจารย์ จะต้องมีการจัดเก็บ เพื่ออ้างอิงกับ wl

Algorithm ของเราที่ออกแบบตอนนี้ จะต้องเผื่ออนาคตด้วย

Buja (พระบูชา ธัมมปูชโก) 2017-07-21 14:03:11 UTC #2

11:12 Buja Dhammapujako คุยกับเอต่อเนื่อง เรื่องโครงสร้างฐานข้อมูล
11:13 เอ อริยะ ครับ
11:15 Buja Dhammapujako ID ที่เป็นแต่ละคำ ของพระบาลีทั้งหมด 2 ล้านกว่าคำ

id นี้ไม่ขึ้นกับเล่มใช่ไหม เพราะของไทย ศรีลังกา พม่า มีเล่มพระไตรปิฎก ไม่เหมือนกัน
11:16 เอ อริยะ ID เป็นตัวของมันเองครับ แต่ใน record นั้นมีข้อมูลว่าอยู่เล่มไหน
11:18 Buja Dhammapujako สมมุติว่าถ้ามีการปรับแก้ เช่นมีการแทรกคำเข้าไปตรงกลาง ก็ได้ใช่ไหม
11:19 เอ อริยะ จะมีนข้อมูล index อีกตัวครับ ที่จะทำหน้าที่นี้
11:19 เอ อริยะ ฉะนั้น แทรกได้
11:19 เอ อริยะ แต่ต้องเปลี่ยน index ที่ทำหน้าที่เรียงลำดับคำ
11:21 Buja Dhammapujako คือต้องวิ่ง index ใหม่หมด ทั้ง 2 ล้านกว่าคำ ?
11:23 เอ อริยะ ไม่ครับ
11:23 เอ อริยะ มันจะมี scope ในหน้าที่มันอยู่เท่านั้น
11:23 เอ อริยะ ประมาณ150 รายการ
11:24 เอ อริยะ ตัวอย่างเช่น การ edit source เราทำการแก้ไขข้อมูลในหน้านั้น มันจะทำการ reindex คำใหม่
11:24 เอ อริยะ เมื่อพบว่า ต้นฉบับมีการเพิ่ม ลดคำ
11:29 Buja Dhammapujako
สมมติว่า
พตป.ไทย มี T1 T2 T3 T4
ศรีลังกา L1 L2 L3 L4 L5 L6
เมียนมาร์ M1 M2 M3 M4 M5 M6 M7

(คือมีจำนวนคำบาลี ไม่เท่ากัน ก่อนการ e-สังคายนา)

ตัว index ที่จะเป็น common reference จะเป็นยังไง
11:55 เอ อริยะ แนวทางน่าจะเป็นอย่างนี้นะครับ
11:56 เอ อริยะ ประการแรก

ต้องมีการกำหนดเขตข้อมูลก่อน เช่น พระสูตรโดยระบบ Annotation หรือ โดย Data Science แล้วเราค่อยสังคายนาจากการเทียบเขตข้อมูลนั้นๆ ครับ

11:57 เอ อริยะ ฉะนั้นเรื่องการสังคายนาจะเกิดขึ้นได้ต้องมีการทำ Data Science เพื่อการ กำหนดเขตข้อมูลขึ้นมา ซึ่งเขตข้อมูลพวกนี้จะตรงกันทั้งในพระไตรปิฏกเถรวาท
11:58 เอ อริยะ แล้วคำศัทพ์ภายในจะตรงกันหรือไม่ก็จะเป็นการเทียบใน Set เล็กๆ
11:59 Buja Dhammapujako อ้อ
11:59 เอ อริยะ แต่ตอนนี้เราไม่มีโครงสร้างนั้น เรามีเล่มหน้า
12:00 เอ อริยะ เล่มหน้า นี้เราใช้ในการ Mapping / Proof Spelling ไปพลางก่อน
12:00 เอ อริยะ จนได้ข้อมูลที่ถูกต้องแล้วต่อไปต้องสร้าง Common Reference
12:00 Buja Dhammapujako พอเข้าใจละ เอ
12:00 เอ อริยะ กราบครับ