${v.nameEn}

Loading...

รายละเอียดหลักสูตร

หลักสูตรนี้มุ่งหมายให้ผู้เรียนเข้าใจกระบวนการทำงานของระบบ Hadoop และสามารถติดตั้งระบบ Hadoop Cluster เพื่อใช้งานรวมถึงเข้าใจเครื่องมือแต่ละตัวและประยุกต์ใช้งานซอฟต์แวร์เหล่านั้นได้ ในเนื้อหาเป็นการลงมือปฏิบัติคอนฟิกเครื่องเซิร์ฟเวอร์คลัสเตอร์ให้ทำงานร่วมกัน และศึกษาส่วนประกอบหลัก ๆ ของHadoopไล่ไปทีละส่วน ตั้งแต่ส่วนของระบบไฟล์แบบกระจายที่เรียกว่า Hadoop Distributed File System (HDFS) การประมวลผลข้อมูลด้วย MapReduce รวมถึงซอฟต์แวร์แวดล้อมที่มาทำงานบนระบบ MapReduce อย่าง Pig และ Hive เพื่อใช้จัดการกับข้อมูลในรูปภาษาสคริปต์ และภาษาในลักษณะ SQL ตามลำดับ นอกจากนั้นยังได้หัดใช้ Sqoop เพื่อเชื่อมต่อกับซอฟต์แวร์ฐานข้อมูล (DBMS) รวมถึงการติดตั้งและใช้งาน Hue, impala และ spark ผู้เรียนจะได้ศึกษาไปทีละขึ้น รวมถึงจะได้เรียนรู้คำสั่งจำเป็นต่อการดูแลระบบ การอ่านและวิเคราะห์ Log File

หลักสูตรนี้เหมาะสำหรับ

ผู้ที่สนใจเรื่อง Big Data และ Hadoop วิศวกรคอมพิวเตอร์ นักเทคโนโลยีสารสนเทศ อาจารย์และบุคลากรทางการศึกษาในสาขาที่เกี่ยวข้อง

วัตถุประสงค์

  1. เพื่อให้ผู้เข้าอบรมมีความรู้ความเข้าใจเกี่ยวกับ Big Data
  2. เพื่อให้ผู้เข้าอบรมเข้าใจในหลักการทำงานของซอฟต์แวร์ Hadoop ecosystem
  3. เพื่อให้ผู้เข้าอบรมสามารถติดตั้งระบบ Hadoop Cluster ขึ้นใช้งานเองได้
  4. เพื่อให้ผู้เข้าอบรมรู้จักกับเครื่องมือแวดล้อมต่าง ๆ บน Hadoop เช่น Hive, Spark และสามารถนำไปประยุกต์ใช้งานได้
  5. เพื่อให้ผู้เข้าอบรมมีทักษะในการวิเคราะห์ปัญหาที่เกิดขึ้นและแก้ไขได้

ความรู้พื้นฐาน

ผู้เข้าอบรมควรมีความสามารถในการใช้งานคำสั่งลีนุกซ์ (Linux) พื้นฐาน และ SQL พื้นฐาน

ซอฟต์แวร์ที่ใช้

  1. Cloudera Hadoop (CDH6) or Hortonworks Data Platform (HDP3)
  2. JDK-1.8
  3. CentOS-7 x86_64
  4. VirtualBox (ทีมงานคลัสเตอร์ตคิทจะเตรียม VirtualBox Image ที่ติดตั้ง Linux CentOS-7 ไว้ให้)
  5. OpenLandscape Cloud ( ผู้เรียนจะได้ใช้งานคลาวด์จำนวน 6 VMs มีหน่วยความจำขนาด 1x16GB และ 5x4GB ตลอด 3 วัน)

รูปแบบการสอน

  • หลักสูตรเรียน Online: บรรยาย และปฏิบัติการผ่านซอฟต์แวร์ Zoom จำลองสภาพแวดล้อมแบบคลัสเตอร์บน Cloud จำนวน 6 VM ตลอดหลักสูตร (ทางบริษัทฯ จัดเตรียมให้)
  • หลักสูตรเรียน Onsite: บรรยายและปฏิบัติการที่บริษัท ฯ การอบรมจะจำลองสภาพแวดล้อมแบบคลัสเตอร์บน Cloud จำนวน 6 VM (โดยทางบริษัท ฯ จัดเตรียม Cloud ให้) และในการอบรมครึ่งวันเช้าวันแรก จะจำลอง VM ในเครื่องคอมพิวเตอร์ของท่านจำนวน 3 VM ขอให้ผู้เข้าอบรมเตรียมเครื่องคอมพิวเตอร์ที่มีหน่วยความจำไม่น้อยกว่า 8 GB และมีพื้นที่ว่าง (Disk space) ไม่น้อยกว่า 50GB มาในการอบรม พร้อมติดตั้ง VirtualBox และ VirtualBox Extension Pack และเปิดฟังก์ชั่น Virtualization ใน BIOS มาให้เรียบร้อยตามคู่มือ

เนื้อหาหลักสูตร

วันที่ 1

  • แนะนำ Big Data ในภาพรวม
  • เข้าใจการทำงานและรู้จักองค์ประกอบของ Hadoop
  • แนะนำ Cloudera Hadoop และ Hortonworks Data Platform
  • การติดตั้ง JDK
  • การปรับแต่งระบบลีนุกซ์เพื่อเตรียมติดตั้ง Hadoop แบบคลัสเตอร์
    • การสร้าง ssh key และวางคีย์เพื่อสร้างสภาพแวดล้อมแบบ Single Sign On
    • การปรับแต่งไฟล์วอลล์เพื่อความปลอดภัย
    • การกำหนดค่าไฟล์ /etc/hosts
    • การปิด selinux
  • ติดตั้งและใช้งาน HDFS
    • การออกแบบระบบ HDFS
    • รู้จักหลักการทำงานของ HDFS และการใช้งาน HDFS
    • รู้จักกับค่าคอนฟิกกูเรชั่นที่เกี่ยวข้อง
    • การตรวจดูสถานะและใช้งานหน้าเว็บ HDFS
    • การใช้คำสั่ง hadoop การจัดการไฟล์ในระบบ HDFS
    • การตรวจดูสถานะ HDFS ผ่านคำสั่งที่เกี่ยวข้อง เช่น dfsadmin
    • การอ่าน Log File และการวิเคราะห์ปัญหาที่เกิดขึ้น
    • การจัดการบัญชีผู้ใช้งาน
  • ติดตั้ง Hadoop ผ่าน Cloudera Manager หรือ Apache Ambari (Hortonwork) ผู้เรียนสามารถเลือกติดตั้งได้ โดยติดตั้งบน Cloud จำนวน 6 เครื่อง
    • ปรับแต่งระบบลีนุกซ์เพื่อเตรียมติดตั้ง Hadoop
    • ติดตั้งฐานข้อมูล MySQL และ MySQL JDBC
    • ติดตั้ง Parallel command เพื่อสั่งคำสั่งพร้อมกันที่เดียวหลายเครื่อง
    • ติดตั้ง Services ต่าง ๆ ผ่าน Cloudera Manager หรือ Apache Ambari

วันที่ 2

  • การทำ High Availability (HA)
    • การทำ High Availability สำหรับ HDFS
    • การทำ High Availability สำหรับ YARN
  • การใช้งาน HDFS
    • การใช้คำสั่ง hadoop การจัดการไฟล์ในระบบ HDFS
  • การใช้งาน MapReduce2 (Yarn)
    • การรันโปรแกรมคำนวณค่า Pi ผ่าน MapReduce2
    • การคอมไพล์และรันโปรแกรม MapReduce
    • ตัวอย่างโปรแกรม WordCount
    • การ Monitor MapReduce Task
  • การใช้งาน Pig
    • การเขียน Pig Script และรัน
  • รู้จักกับ Hive เครื่องมือที่จะช่วยให้เราสามารถสั่ง SQL เพื่อทำ MapReduce ได้
    • การใช้งาน Hive ผ่านคำสั่ง SQL
    • การใช้งาน Hive ผ่านคำสั่ง hive และ beeline
    • เทคนิคการนำเข้าข้อมูล Hive
    • การคิวรี่ข้อมูลที่จัดเก็บบน JSON File
    • รู้จักกับรูปแบบการจัดเก็บข้อมูลอื่น ๆ บน Hive
    • กรณีศึกษาตัวอย่างการใช้งานจริง
    • การคอนฟิก Hive ODBC และทดลองใช้งานผ่าน Power BI
    • การเชื่อมต่อ Hive ผ่าน JDBC ด้วยโปรแกรม DBeaver
  • รู้จักกับ Sqoop เครื่องมือที่ใช้เชื่อมต่อกับ JDBC เพื่อนำเข้าข้อมูลจากฐานข้อมูล
    • การติดตั้งและใช้งาน Sqoop
    • การนำเข้าข้อมูลจาก MySQL สู่ HDFS และ Hive
    • การนำออกข้อมูลจาก HDFS และ Hive สู่ MySQL
  • Flume เครื่องมือในการดึงข้อมูลแบบ streaming
    • ติดตั้ง Flume ผ่าน tar package
    • ทดลองใช้งาน flume เพื่อดึงข้อมูล log data

วันที่ 3

  • ติดตั้งและใช้งาน JDBC, ODBC สำหรับ Hive และ Impala
  • รู้จักกับ Spark
    • ทดสอบการใช้งาน Spark ด้วยโปรแกรมหาค่า Pi
    • การใช้งาน Spark ผ่านภาษา python (pyspark)
    • ตัวอย่างการใช้งาน Spark ML ด้วยการรัน K-mean กับชุดข้อมูล Iris
  • รู้จักกับ HBase
    • การใช้งานผ่าน command-line “hbase”
    • การเรียกข้อมูลผ่านหน้าเว็บ Hue
  • รู้จักกับ Kafka และใช้งาน
  • การใช้งาน WebHDFS API
  • การปรับแต่งประสิทธิภาพที่สำคัญสำหรับการใช้งานจริง
  • การออกแบบระบบที่เหมาะสม และกรณีศึกษา

เนื้อหาในส่วนที่แตกต่างกันระหว่าง Cloudera และ Hortonwork

Cloudera Distribution Hadoop (CDH)Hortonwork Data Platform (HDP)
  • การใช้งาน Hadoop ผ่านหน้าเว็บ Hue
    • รู้จักกับ Hue Web Interface
    • การใช้งาน Hue UI
    • การใช้งาน Hive บน Hue
    • การใช้งาน Sqoop บน Hue
    • การนำเข้าข้อมูล CSV และสร้างตารางผ่าน Hue
    • การใช้งาน MapMaker แสดงพิกัด Lat, Long บนแผนที่
  • การใช้งาน Impala – SQL Query enging for Hadoop
    • การใช้งาน Impala บน Hue
    • ความแตกต่างระหว่าง Hive และ Impala
    • การใช้งานและการเชื่อมต่อ ODBC & JDBC
  • การใช้งาน OOZIE การทำ Workflow
    • หลักการทำงานของ workflow
    • การสร้าง workflow ผ่านหน้าเว็บ hue
    • การตั้งเวลาทำงานของ workflow
  • รู้จักกับ Apache Zeppelin
    • การติดตั้งและใช้งาน Apache Zeppelin UI
    • การใช้งาน Hive บน Zeppelin
    • การใช้งาน Spark บน Zeppelin

วิธีการชำระเงิน

  1. ชำระเป็นเงินสดหรือเช็ค (งดรับเช็คส่วนตัว) สั่งจ่ายในนาม บริษัท คลัสเตอร์คิท จำกัด นำมาชำระที่ บริษัท คลัสเตอร์คิท จำกัด
  2. โอนเงินเข้าบัญชีออมทรัพย์
    1. ธนาคารกสิกรไทย สาขาบางขุนนนท์ ชื่อบัญชี บริษัท คลัสเตอร์คิท จำกัด เลขที่บัญชี 753-2-25601-6
    2. ธนาคารกรุงเทพ สาขาบางขุนนนท์ ชื่อบัญชี บริษัท คลัสเตอร์คิท จำกัด เลขที่บัญชี 190-0-78709-2
    3. * กรุณาส่งหลักฐานการโอนเงินมาทาง Email: accounting@clusterkit.co.th หรือแฟกซ์หลักฐานการโอนเงินมาที่ 0 2424 7603

หมายเหตุ

  • ราคาข้างต้นรวมภาษีมูลค่าเพิ่ม 7% แล้ว
  • บริษัท หรือนิติบุคคลสามารถหัก ณ ที่จ่ายในอัตรา 3%, หน่วยงานราชการ 1% ของราคาค่าอบรมก่อนหักภาษีมูลค่าเพิ่ม และต้องนำหนังสือรับรองการหักภาษี ณ ที่จ่ายมาในวันอบรม

    บริษัท คลัสเตอร์คิท จำกัด
    เลขที่ 91 ซอยริมคลองชักพระ
    ถนนบางขุนนนท์ แขวงบางขุนนนท์
    เขตบางกอกน้อย กทม. 10700
    เลขทะเบียนนิติบุคคล: 0105550004011

    (กรณีไม่มีหนังสือรับรองต้องชำระเต็มจำนวน)
  • การสำรองที่นั่งอบรมจะสมบูรณ์ต่อเมื่อมีการชำระเงิน จึงขอสงวนสิทธิ์แก่ผู้ที่สำรองที่นั่งอบรมเข้ามาก่อนตามลำดับ
  • รายละเอียดต่าง ๆ อาจมีการเปลี่ยนแปลงตามความเหมาะสมโดยมิต้องแจ้งให้ทราบล่วงหน้า

หากคุณมีข้อสงสัย กรุณาติดต่อเรา

ติดต่อเรา