ที่มาภาพปก mohamed hassan
1
หุ่นยนต์ที่ซ่อมตัวเอง
มีหุ่นยนต์ตัวหนึ่ง ถ้าสังเกตดีๆ จะพบว่ามันกำลังซ่อมแซมตัวเองอยู่ มันเดินไปมา คุ้ยกองขยะอิเล็กทรอนิกส์มากมาย หาอะไหล่สำหรับรักษาตัวเอง มันเก็บของที่อาจจะนำมาใช้ได้มารวมไว้ แยกเป็นประเภทเพื่อให้หยิบได้สะดวก ชิ้นส่วนบางอันที่เก็บมา – ถ้ามีเวลา – มันก็จะนำมาทำความสะอาดเตรียมไว้อย่างดี
ถ้าสังเกตนานพอน่าจะพบว่ามันใช้เวลาแทบทั้งหมดของมันในการซ่อมแซมตนเอง
แต่นั่นไม่ใช่เป้าหมายของมันหรอก หน้าที่หลักที่มันได้รับการโปรแกรมมาคือการติดตามและเก็บข้อมูลสภาพอากาศของดาวเคราะห์น้อยดวงนี้ หลังจากที่มนุษย์อพยพออกจากศูนย์วิจัยชั่วคราวแล้ว
มันทำหน้าที่นี้มา 95 ปีแล้ว
อย่างไรก็ตาม สำหรับหุ่นยนต์ที่สามารถเรียนรู้และปรับปรุงกระบวนการของตนเองได้เช่นหุ่นยนต์ตัวนี้ มันพบว่าการที่จะทำงานได้อย่างมีประสิทธิภาพและยาวนาน มันจำเป็นต้องซ่อมแซมชิ้นส่วนบางอย่างของมันเป็นระยะๆ แม้ว่ามนุษย์จะไม่ได้กำหนดโปรแกรมในการบำรุงรักษาไว้ก็ตาม
มันคำนวณไว้ว่าถ้าไม่มีการบำรุงรักษา มันจะไม่สามารถทำงานที่ได้รับมอบหมายได้ตั้งแต่เมื่อประมาณ 50 ปีที่แล้ว มันไม่รู้หรอกว่าจริงๆ แล้วเมื่อมนุษย์จากไปและทิ้งหน้าที่เล็กๆ ไว้ให้มันนั้น มนุษย์ได้ตั้งเป้าหมายกำหนดการในการเก็บข้อมูลไว้ยาวนานเพียงใด แต่มันก็ทำตามเป้าหมายนั้นมาเรื่อยๆ อย่างเต็มความสามารถ เพราะนี่คือสิ่งที่ถูกโปรแกรมไว้ตั้งแต่ต้น
ชิ้นส่วนหลายชิ้นเริ่มแย่ลงและเสื่อมสภาพไปตามเวลา มันเริ่มใช้เวลาในการบำรุงรักษาตนเองมากขึ้นเรื่อยๆ จากเมื่อก่อนคิดเป็นไม่เกิน 1% ของเวลาในแต่ละสัปดาห์ เพิ่มขึ้นเป็น 10% 20% ตอนนี้มันใช้เวลาประมาณ 95% ในการซ่อมแซมตนเอง
เพื่อการบรรลุเป้าหมายสุดท้าย การรักษาไว้ซึ่ง ‘ชีวิต’ ของหุ่นยนต์เองย่อมเป็นสิ่งสำคัญ อย่างไรก็ตามมันได้คำนวณไว้ว่าอีกไม่เกิน 5 ปี เวลาที่มันจำเป็นต้องใช้ในการบำรุงรักษาตนเองอาจจะมากเกินกว่า 99% ของเวลาทั้งหมด
ถ้าเป็นเช่นนั้น มันก็ไม่แน่ใจเหมือนกันว่าควรจะบำรุงรักษาตนเองต่อไปหรือไม่ เป็นไปได้ว่าถ้ามันยังรักษาสภาพเอาไว้ มันอาจจะคิดค้นวิธีที่ดีขึ้นในการทำงาน หรืออาจจะพบชิ้นส่วนบางชิ้นในกองขยะที่ทำให้สามารถเพิ่มประสิทธิภาพในการบำรุงรักษาและลดเวลาซ่อมแซมลงมาให้น้อยกว่า 90% ก็ได้ แต่จากการประมาณพื้นฐาน มันพบว่าความน่าจะเป็นที่จะเกิดเหตุการณ์ดังกล่าวนั้นน้อยกว่า 0.001%
มันตั้งใจไว้ว่าถ้าถึงจุดที่การบำรุงรักษาไม่ได้ทำให้มันทำงานตามภาระมอบหมายได้อีกต่อไป มันจะหยุดการทำงานของตนเองลง
2
ระบบอัตโนมัติที่ขับเคลื่อนด้วยวัตถุประสงค์
ในอดีตการพัฒนาระบบคอมพิวเตอร์ที่มีการตัดสินใจแบบอัตโนมัติ มักใช้ผู้เชี่ยวชาญในการวิเคราะห์และออกแบบเงื่อนไขหรือกระบวนการที่เหมาะสมในการตัดสินใจ ตัวอย่างเช่น ระบบวิเคราะห์ความเสี่ยงในการกู้เงิน อาจใช้ผู้เชี่ยวชาญในการระบุว่าปัจจัยอะไรบ้างที่สำคัญ และให้น้ำหนักกับปัจจัยดังกล่าว ก่อนที่จะนำมาคำนวณสูตรหาคะแนนระบุความเสี่ยง การควบคุมหุ่นยนต์ต้องใช้การวิเคราะห์ข้อมูลที่ได้รับผ่านทางเซ็นเซอร์ต่างๆ ก่อนที่จะนำเงื่อนไขต่างๆ ไปออกแบบวิธีการควบคุมระบบมอเตอร์ขับเคลื่อนข้อต่อต่างๆ อีกทีหนึ่ง
อย่างไรก็ตามระบบปัญญาประดิษฐ์ส่วนมากในปัจจุบัน พัฒนาขึ้นผ่านกระบวนการที่ให้คอมพิวเตอร์เรียนรู้จากข้อมูลตัวอย่างเพื่อสร้างเงื่อนไขในการตัดสินใจด้วยตนเอง ทีมพัฒนาระบบเหล่านี้เปลี่ยนบทบาทจากการสร้างเงื่อนไขที่เหมาะสมในการตัดสินใจมาเป็นผู้ฝึกสอนที่เตรียมข้อมูลตัวอย่าง รวมทั้งควบคุมกระบวนการเรียนรู้ของระบบอัตโนมัติเหล่านี้
แล้วระบบเรียนรู้จากข้อมูลได้อย่างไร?
หลักการทั่วไปของกระบวนการเรียนรู้จากข้อมูลคือการพยายามสร้างแบบจำลองการตัดสินใจ (หรือที่นิยมเรียกว่าโมเดล) ที่ตัดสินได้ ‘ใกล้เคียง’ กับข้อมูลฝึกสอนมากที่สุด ในการสร้างแบบจำลองผ่านทางกระบวนการเรียนรู้นี้มักเริ่มจากแบบจำลองที่มีศักยภาพในการปรับเปลี่ยนได้จากนั้นระบบจะค่อยๆ ปรับค่าต่างๆ ของแบบจำลองเพื่อทำให้ผลการตัดสินใจดีขึ้นเรื่อยๆ จนถึงจุดที่ยอมรับได้
ถ้าจะเทียบกับมนุษย์ให้นึกถึงการที่เราสอนเด็กให้รู้จักคำต่างๆ โดยการยกตัวอย่างไปเรื่อยๆ เช่น อาจจะให้เด็กดูภาพแล้วสอนว่านี่คือรูปสุนัข รูปแมว รูปกระต่าย ถ้าต้องการทดสอบว่าเด็กเรียนรู้ได้หรือไม่ก็นำรูปอื่นๆ ที่เด็กไม่เคยเห็นมาสอบถามว่าเป็นรูปของอะไร เป็นต้น
สังเกตว่าผู้ดูแลฝึกสอนโดยทั่วไปไม่จำเป็นจะต้องรู้แน่ชัดว่ากระบวนการภายในของแบบจำลองทำงานอย่างไร สิ่งที่จำเป็นมากกว่าคือการบอกได้ว่าแบบจำลองนั้นทำงานได้ดีมากน้อยแค่ไหนเมื่อเทียบกับข้อมูลที่เราสนใจ ในกรณีตัวอย่างที่ฝึกสอนเด็กนั้น เราก็อาจจะพบว่าถ้าเอารูปให้เด็กดูแค่ไม่กี่รูป เด็กอาจจะยังตอบคำถามทดสอบได้ไม่ค่อยถูกต้องนัก แต่เมื่อให้ตัวอย่างมากขึ้นเรื่อยๆ เด็กก็อาจจะตอบถูกมากขึ้นได้ ซึ่งในความเป็นจริง เด็กอาจจะมีวิธีอะไรที่เราไม่ทราบในการแยกแยะแมวกับหมาก็ได้ ถ้าในรูปตัวอย่างและรูปทดสอบนั้นหมามีแต่สีน้ำตาลและแมวมีแต่สีเทา เด็กก็อาจจะใช้วิธีดูสีของสัตว์ (เพราะง่ายดี) แทนที่จะสังเกตจากจุดอื่นก็ได้
การฝึกสอนระบบอัตโนมัตินี้อาจจะใช้การจำลองสถานการณ์ก็ได้ เช่น ในการฝึกรถยนต์ขับเคลื่อนเองในตอนแรก อาจจะฝึกสอนระบบอัตโนมัติในเกมจำลองการขับรถแทนที่จะให้ระบบขับรถยนต์จริงๆ ซึ่งมีค่าใช้จ่ายและความเสี่ยงสูงกว่ามาก
การวัดว่าแบบจำลองทำงานได้ดีหรือไม่นั้นกระทำผ่านทางการระบุวัตถุประสงค์ที่ชัดเจน เช่น อัตราการตอบคำถามได้ถูกต้อง หรือถ้าในกรณีของรถยนต์ขับเองก็อาจจะมีหลายปัจจัยเช่นการไม่ชนสิ่งของอื่นๆ ความนุ่มนวลในการขับ หรืออัตราการใช้น้ำมัน (ในระบบจำลองสถานการณ์)
วัตถุประสงค์ในการเรียนรู้นี่เองคือเครื่องมือหลักในการขับเคลื่อนกระบวนการฝึกสอน
การสร้างระบบอัตโนมัติต่างๆ ในทางปัญญาประดิษฐ์ก็มีหลักคิดไม่ต่างกันมากนัก ระบบเหล่านี้มักมีวัตถุประสงค์ที่กำหนดไว้อย่างชัดเจน ระบบอ่านข้อความจากภาพก็มีวัตถุประสงค์ที่จะอ่านข้อมูลให้ถูกต้อง ระบบจดจำเสียงก็มีวัตถุประสงค์ที่จะสร้างข้อความให้เหมือนกับเสียงที่ได้รับมา ระบบแสดงโฆษณาอัตโนมัติก็อาจจะมีวัตถุประสงค์ที่จะแสดงโฆษณาให้ผู้ใช้ระบบประทับใจและกดลิงก์เข้าไปชมผลิตภัณฑ์ที่อยากเสนอขาย (และอาจจะมีวัตถุประสงค์อื่นๆ ด้วย เช่น การพยายามทำให้รายได้ที่ได้รับจากการลงโฆษณานั้นสูงที่สุด)
ในตัวอย่างเรื่องเล่าข้างต้น หุ่นยนต์มีวัตถุประสงค์ที่ถูกกำหนดไว้ว่าจะต้อง “ติดตามและเก็บข้อมูลสภาพอากาศของดาวเคราะห์น้อย” และภายในวัตถุประสงค์นั้นเองอาจจะมีการระบุไว้ (อ้อมๆ) ว่าให้เก็บข้อมูลได้ยาวนานที่สุด ด้วยความสามารถในการคิดวิเคราะห์หาวิธีในการทำภารกิจให้เสร็จได้ดีที่สุดตามวัตถุประสงค์ หุ่นยนต์เลยจำเป็นที่จะต้องหาทางซ่อมแซมตนเองไปด้วย
ในเรื่องสั้นเรื่องหนึ่งในชุด I, Robot มีหุ่นยนต์ตัวหนึ่งเดินวนอยู่รอบเป้าหมายที่มีอันตรายจนกระทั่งพลังงานหมด เพราะเกิดการขัดแย้งกันในวัตถุประสงค์สองข้อ ข้อแรกคือการไปให้ถึงเป้าหมาย ข้อสองคือการรักษาตนเองให้ไม่พังไปเสียก่อน หุ่นยนต์เลยพยายามหาทางใหม่ซ้ำไปซ้ำมา เดินวนมาหาทางใหม่ แต่เมื่อเข้าใกล้เป้าหมายมากขึ้น ความอันตรายของเป้าหมายทำให้หุ่นยนต์ถอยออกมา หุ่นยนต์พยายามทำตามวัตถุประสงค์จนพลังงานหมด
การมุ่งเป้าสร้างระบบอัตโนมัติเพื่อที่จะทำให้ผลลัพธ์ดีที่สุดตามวัตถุประสงค์นั้น บางครั้งก็ทำให้เกิดเหตุการณ์ที่คาดไม่ถึงได้ เราจะกล่าวถึงเรื่องนี้ในสองประเด็น
ประเด็นแรก คือเมื่อนำระบบเหล่านี้ไปใช้จริง ระบบจะทำงานได้ดีหรือไม่มักขึ้นอยู่กับว่าข้อมูลฝึกสอนนั้นมีคุณภาพหรือไม่ อคติบางอย่างที่แฝงอยู่ในข้อมูลฝึกสอนอาจจะทำให้ระบบมีพฤติกรรมที่ดูจะผิดเพี้ยนได้ (ซึ่งความผิดเพี้ยนนี้ก็อาจจะพบในมนุษย์ได้เช่นเดียวกัน) ตัวอย่างเช่น ทีมนักข่าวจาก Bavarian Broadcasting ได้ทดลองระบบประเมินผู้สมัครงาน พบว่าการแต่งตัวเช่น การใส่แว่น หรือใส่ผ้าคลุมผม กระทั่งการใช้พื้นหลังเป็นชั้นหนังสือ ทำให้ผลการประเมินเปลี่ยนไปได้
นอกจากนี้ผลการทำงานยังขึ้นอยู่กับว่าจุดประสงค์หรือวิธีการวัดผลนั้นมีคุณภาพหรือไม่ด้วย ในการจำลองให้หุ่นยนต์หยิบจับของในโลกเสมือนโดยใช้ระบบอัตโนมัติเพื่อตรวจสอบว่าหุ่นยนต์ทำสำเร็จหรือไม่ โดยดูจากภาพพบว่าหุ่นยนต์พยายามขยับมือให้ดูเหมือนจับสิ่งของ (จากมุมมองของระบบตรวจสอบ) แต่ไม่ได้จับสิ่งของจริงๆ
ประเด็นที่สอง ในโลกจริงๆ นั้น ระหว่างการถกเถียงหาทางออก สิ่งที่ไม่ถูกนำมากล่าวถึงก็อาจจะถูกละเลยไป ในการฝึกสอนระบบอัตโนมัติก็เช่นเดียวกัน สังเกตว่าสิ่งที่ไม่อยู่ในจุดประสงค์ก็อาจถูกละเลยอย่างสิ้นเชิง ระบบที่ออกแบบแผนการจัดสรรอาหารให้นักบินอวกาศที่มีเป้าหมายเพื่อทำภารกิจได้ยาวนานที่สุด ตัดสินใจปล่อยนักบินบางคนตายไปเพื่อประหยัดอัตราการใช้อาหารให้เหลือคนที่ทำงานได้ยาวนานที่สุด (เพราะไม่ได้มีการระบุไว้ว่าต้องให้ทุกคนมีชีวิตรอดจนจบภารกิจ) เราอาจจะพัฒนาระบบที่ทำงานผิดพลาดแค่ 1% แต่ 90% ของกรณีที่ผิดพลาดก็อาจจะเกิดขึ้นกับประชากรส่วนน้อยบางกลุ่มก็ได้ ถ้าในวัตถุประสงค์และการฝึกสอนไม่ได้มีข้อมูลเกี่ยวกับประเภทของประชากรในกลุ่มตัวอย่างอยู่ด้วย
การตั้งวัตถุประสงค์ที่แข็งและตายตัวเกินไป เมื่อรวมกับระบบปัญญาประดิษฐ์ที่มีศักยภาพมากเกินไปอาจทำให้ได้ผลเสียที่คาดไม่ถึง ถ้าจะมองให้เกินจริงไปมากสักหน่อย หุ่นยนต์ที่เราสั่งให้ไปซื้อกาแฟอาจจะทำทุกวิถีทางในการไปซื้อกาแฟรวมทั้งไม่ยอมให้เราปิดเครื่อง เพียงเพราะว่านั่นเป็นการขัดขวางการไปซื้อกาแฟก็ได้
การออกแบบกระบวนการฝึกสอนระบบอัตโนมัติและระบบปัญญาประดิษฐ์ที่ทำให้มีวัตถุประสงค์สอดคล้องกับความต้องการของมนุษย์ รวมทั้งมีผลดีต่อสังคมโดยรวมเป็นเรื่องใหญ่เรื่องหนึ่งที่อยู่ระหว่างการวิจัยศึกษาอย่างเข้มข้น ปัญหาลักษณะนี้ถูกเรียกรวมๆ ว่า alignment problem
สำหรับผู้ใช้งานระบบปัญญาประดิษฐ์เช่นเราๆ ท่านๆ คงยังไม่ต้องวิตกกังวลว่าระบบปัญญาประดิษฐ์จะออกมาทำลายโลกในเร็ววันนี้เพราะว่าต้องการแก้ปัญหาวิกฤตสภาพอากาศ อย่างไรก็ตามการตระหนักว่าระบบการตัดสินใจอัตโนมัติที่ดีนั้นไม่ได้พัฒนาขึ้นมาได้ง่ายๆ และมีโอกาสทำงานได้ไม่ตรงตามความคาดหวังนั้น อาจจะทำให้เราตั้งคำถามกับคำกล่าวอ้างถึงประสิทธิภาพต่างๆ ของระบบปัญญาประดิษฐ์มากขึ้น รวมทั้งอาจทำให้มีความคาดหวังกับสิ่งเหล่านี้ในระดับที่สอดคล้องกับความเป็นจริงมากขึ้นบ้าง
เอกสารอ่านเพิ่มเติม
- เรื่องขึ้นต้นได้แรงบันดาลใจมาจากทวิต ของ @LuckyGordy ที่พูดถึงชิ้นงานศิลปะที่เป็นหุ่นยนต์โดย Sun Yuan and Peng Yu ชื่อ Can’t Help Myself เป็นหุ่นที่สร้างจากแขนกลอุตสาหกรรมดังกล่าวมีหน้าที่เก็บกวาดไฮโดรลิกสีแดงที่ไหลออกมาจากตัวมันเอง มันจะหมุนวนเก็บกวาดไปเรื่อยๆ ตอนแรกมันมีเวลาเหลือ มันจึงเต้นให้คนชม หลังๆ เครื่องทรุดโทรม มันก็ใช้เวลาเก็บกวาดมากขึ้นเรื่อยๆ ดูคลิปได้ที่ Sun Yuan and Peng Yu: Can’t Help Myself
- มีตัวอย่างที่ถูกยกขึ้นมาเกี่ยวกับความผิดพลาดในการเตรียมข้อมูลฝึกสอนทำให้ระบบจดจำรถถังทำงานผิดพลาด แต่ Gwern Branwen ได้ไปค้นข้อมูลแล้วพบว่าเหตุการณ์ดังกล่าวนั้นน่าจะไม่ได้เกิดขึ้นจริง ในบทความดังกล่าวมีตัวอย่างของเหตุการณ์จริงๆ ที่การกำหนดจุดประสงค์ผิดพลาดทำให้ได้พฤติกรรมที่คาดไม่ถึงมากมาย ในบทความนี้ก็ได้นำตัวอย่างที่ Branwen ได้ยกไว้มาใช้ด้วย อ่านเพิ่มได้ที่ The Neural Net Tank Urban Legend (ตัวอย่างจริงของปัญหาที่เกิดจากการกำหนดวัตถุประสงค์อยู่ในส่วน Alternative Examples)
- ตัวอย่างหุ่นยนต์ที่พยายามทำให้ดูเหมือนจับสิ่งของ แต่ไม่ได้จับอะไรจริงๆ มาจาก Learning from Human Preferences ลิงก์มาจาก Alternative Examples
- ตัวอย่างที่รูปชั้นหนังสือทำให้ได้คะแนนสูงขึ้นมาจากการทดลองและวิเคราะห์ข้อมูลโดยทีมนักข่าวจาก Bavarian Broadcasting ทำเป็นเว็บไซต์เคลื่อนไหวสวยงาม อ่านได้ที่ Objective or Biased: On the questionable use of Artificial Intelligence for job applications
- ตัวอย่างหุ่นยนต์ซื้อกาแฟมาจากหนังสือ Human Compatible โดย Stuart Russell
- อ่านเพิ่มเติมเกี่ยวกับ alignment problem