11:12 Buja Dhammapujako คุยกับเอต่อเนื่อง เรื่องโครงสร้างฐานข้อมูล
11:13 เอ อริยะ ครับ
11:15 Buja Dhammapujako ID ที่เป็นแต่ละคำ ของพระบาลีทั้งหมด 2 ล้านกว่าคำ
id นี้ไม่ขึ้นกับเล่มใช่ไหม เพราะของไทย ศรีลังกา พม่า มีเล่มพระไตรปิฎก ไม่เหมือนกัน
11:16 เอ อริยะ ID เป็นตัวของมันเองครับ แต่ใน record นั้นมีข้อมูลว่าอยู่เล่มไหน
11:18 Buja Dhammapujako สมมุติว่าถ้ามีการปรับแก้ เช่นมีการแทรกคำเข้าไปตรงกลาง ก็ได้ใช่ไหม
11:19 เอ อริยะ จะมีนข้อมูล index อีกตัวครับ ที่จะทำหน้าที่นี้
11:19 เอ อริยะ ฉะนั้น แทรกได้
11:19 เอ อริยะ แต่ต้องเปลี่ยน index ที่ทำหน้าที่เรียงลำดับคำ
11:21 Buja Dhammapujako คือต้องวิ่ง index ใหม่หมด ทั้ง 2 ล้านกว่าคำ ?
11:23 เอ อริยะ ไม่ครับ
11:23 เอ อริยะ มันจะมี scope ในหน้าที่มันอยู่เท่านั้น
11:23 เอ อริยะ ประมาณ150 รายการ
11:24 เอ อริยะ ตัวอย่างเช่น การ edit source เราทำการแก้ไขข้อมูลในหน้านั้น มันจะทำการ reindex คำใหม่
11:24 เอ อริยะ เมื่อพบว่า ต้นฉบับมีการเพิ่ม ลดคำ
11:29 Buja Dhammapujako
สมมติว่า
พตป.ไทย มี T1 T2 T3 T4
ศรีลังกา L1 L2 L3 L4 L5 L6
เมียนมาร์ M1 M2 M3 M4 M5 M6 M7
(คือมีจำนวนคำบาลี ไม่เท่ากัน ก่อนการ e-สังคายนา)
ตัว index ที่จะเป็น common reference จะเป็นยังไง
11:55 เอ อริยะ แนวทางน่าจะเป็นอย่างนี้นะครับ
11:56 เอ อริยะ ประการแรก
ต้องมีการกำหนดเขตข้อมูลก่อน เช่น พระสูตรโดยระบบ Annotation หรือ โดย Data Science แล้วเราค่อยสังคายนาจากการเทียบเขตข้อมูลนั้นๆ ครับ
11:57 เอ อริยะ ฉะนั้นเรื่องการสังคายนาจะเกิดขึ้นได้ต้องมีการทำ Data Science เพื่อการ กำหนดเขตข้อมูลขึ้นมา ซึ่งเขตข้อมูลพวกนี้จะตรงกันทั้งในพระไตรปิฏกเถรวาท
11:58 เอ อริยะ แล้วคำศัทพ์ภายในจะตรงกันหรือไม่ก็จะเป็นการเทียบใน Set เล็กๆ
11:59 Buja Dhammapujako อ้อ
11:59 เอ อริยะ แต่ตอนนี้เราไม่มีโครงสร้างนั้น เรามีเล่มหน้า
12:00 เอ อริยะ เล่มหน้า นี้เราใช้ในการ Mapping / Proof Spelling ไปพลางก่อน
12:00 เอ อริยะ จนได้ข้อมูลที่ถูกต้องแล้วต่อไปต้องสร้าง Common Reference
12:00 Buja Dhammapujako พอเข้าใจละ เอ
12:00 เอ อริยะ กราบครับ