1 minutes read
— 109 words
พูดถึงงานด้านประมวลผลข้อมูลแบบ Tabular หลายคนต้องนึกถึง Pandas library สารพัดประโยชณ์ ด้าน Data science
cudf library ประสิทธิภาพที่มาพร้อมกับ Nvidia RAPIDS
Nvidia ได้มีการพัฒนา RAPIDS ที่มาพร้อมกับ library หลายตัวรวมถึง cudf ที่เราจะมาลองทดสอบกัน cudf เป็น library ที่มีฟีเจอร์สำคัญๆ คล้ายกับ pandas มาก แต่จะต้องความสามารถบางอย่างออกไปบ้าง แต่สิ่งที่เราได้มาคือ Performance ในการประมวลผลที่เร็วบน GPU
เริ่มกันบน Colab notebook
- ทำการติดตั้ง cudf ผ่าน pip
!pip install cudf-cu11 --extra-index-url=https://pypi.nvidia.com
- import library ที่เราจะทดสอบ คือ pandas , cudf และ numpy
import pandas as pd
import cudf
import numpy as np
- เราจะสร้าง pandas Dataframe แบบสุ่มขึ้นมา 10000000 แถว 5 columns แล้ว copy ไปสู่ cudf dataframe
- ทดสอบการ count ข้อมูลทั้งหมดใน DataFrame จาก pandas ใช้เวลาไป 3 วินาที
- แล้วลองสั่ง count บน cudf ใช้เวลาเพียงแค่ 2.08 ms !
- หา mean ของแต่ละ column แล้วแสดงผลลัพธ์
สำหรับโปรเจคที่ต้องการความเร็วการทำงาน cudf ถือเป็นตัวเลือกที่ดีเลย