Mình đã prompt Claude như thế nào để xử lý và làm sạch file Excel gần 10,000 dòng chỉ trong 10 phút?
Claude có thực sự xử lý dữ liệu Excel tốt như lời đồn? Xem ngay hướng dẫn chi tiết cách prompt AI để phát hiện lỗi, làm sạch workbook và kiểm tra lại dữ liệu trước khi phân tích.
Không biết có ai giống mình không, nhưng mỗi lần làm báo cáo, khâu xử lý dữ liệu luôn là một trong những phần mình ngại nhất :)))
Với những file nhỏ thì không sao. Nhưng khi dữ liệu lên đến vài nghìn dòng, việc ngồi dò lỗi, chỉnh từng cột, chuẩn hoá từng định dạng hay kiểm tra từng giá trị bất thường thực sự ngốn của mình rất nhiều thời gian.
Trước đây, để giảm bớt phần xử lý thủ công, mình thường dùng Power Query. Công cụ rất tiện ở chỗ là mình có thể xây sẵn một quy trình làm sạch dữ liệu. Sau đó, mỗi khi có dữ liệu mới, mình chỉ cần refresh là các bước xử lý sẽ tự động chạy lại, không cần phải làm lại từ đầu. À đây là kiến thức mình được học trong khoá Excel & AI for Data Analytics tại Tomorrow Marketers, mọi người có thể tham khảo thử nha :)))
Tuy nhiên, dạo gần đây mình thấy khá nhiều người khen Claude xử lý dữ liệu trong Excel rất tốt, nên mình cũng bắt đầu tò mò dùng thử, tranh thủ test luôn xem có xứng đáng với số tiền mình bỏ ra để mua bản Pro không =)))
Trong quá trình thử nghiệm, mình cũng gặp không ít tình huống mà mình nghĩ bất kỳ ai mới bắt đầu sử dụng AI cho công việc dữ liệu đều có thể gặp phải. Phần lớn trong số đó đến từ cách mình giao tiếp với AI thông qua prompt.
Vì vậy, trong bài viết này, mình sẽ chia sẻ lại cách mình dùng Claude để xử lý và làm sạch dữ liệu trong Excel: từ cách prompt để AI hiểu dataset, đề xuất hướng làm sạch, xử lý trực tiếp trên workbook, cho đến cách kiểm tra lại để hạn chế lỗi trước khi phân tích.
Để việc test thực tế hơn, mình sử dụng dataset lấy từ game FIFA 21, một trò chơi mô phỏng bóng đá do Electronic Arts phát hành. Dataset gồm thông tin của 8110 cầu thủ bóng đá trong năm 2021, với 19 cột dữ liệu liên quan đến thông tin cá nhân, chỉ số, hợp đồng và giá trị cầu thủ.
Một số cột trong file bao gồm: ID, Name, LongName, Nationality, OP, Potential Rating, Contract, Best Positions, Height, Preferred Foot, Best Position, Joined, Loan Date End, Value, Wage, Release Clause, W/F, SM, Hits.
Trước khi dùng AI, mình có nhìn qua file một lượt để xem dữ liệu đang có những lỗi gì. Sau đó, mình mới bắt đầu dùng Claude để rà sâu hơn và kiểm tra xem AI có phát hiện thêm vấn đề nào không.
Bước 1: Cho AI hiểu bối cảnh của dataset
Mình thấy khá nhiều người khi dùng AI sẽ upload file lên rồi prompt ngay kiểu: “Làm sạch giúp tôi bộ dữ liệu này.”
Prompt này không sai, nhưng hơi chung. Khi không có đủ bối cảnh, AI có thể vẫn xử lý được một phần, nhưng câu trả lời dễ bị chung chung hoặc không đúng với mục đích phân tích của mình. Vì vậy, trước khi yêu cầu Claude làm sạch dữ liệu, mình sẽ mô tả ngắn gọn dataset này là gì và mình dùng nó để làm gì.
Đây là prompt mình dùng:
“Tôi đang có một dataset về cầu thủ FIFA 21, gồm 8.110 dòng và 19 cột. Dataset này sẽ được dùng để thực hành phân tích dữ liệu trong Excel, bao gồm làm sạch dữ liệu, chuẩn hoá định dạng, phân tích chỉ số cầu thủ và trực quan hoá dashboard.
Hãy đọc cấu trúc dữ liệu và cho tôi biết những vấn đề dữ liệu có thể cần xử lý trước khi phân tích. Yêu cầu chỉ trả lời, không chỉnh sửa bất kỳ dữ liệu nào.”
Điểm quan trọng ở đây là mình nói rõ mục đích: dataset sẽ được dùng để phân tích trong Excel, không chỉ để xem dữ liệu.
Khi có context, AI sẽ biết cần chú ý đến những lỗi ảnh hưởng đến phân tích, ví dụ: kiểu dữ liệu sai, giá trị tiền tệ đang ở dạng text, chiều cao chưa chuẩn hóa, ngày tháng không đồng nhất, cột rating có ký tự thừa…
Và sau khoảng 2-3 phút, đây là kết quả Claude trả về cho mình:
Điều khiến mình khá bất ngờ là Claude trả về phần nhận diện vấn đề chi tiết hơn mình nghĩ. Dù trước đó mình đã tự xem qua file, vẫn có một vài lỗi hoặc điểm bất thường trong dữ liệu mà mình chưa kịp phát hiện ra.
Bước 2: Yêu cầu AI đề xuất cách làm sạch dữ liệu
Sau khi Claude đã giúp mình rà soát các vấn đề trong dataset, bước tiếp theo là yêu cầu AI đề xuất cách xử lý.
Các bạn có thể sử dụng prompt sau:
“Hãy làm sạch trực tiếp workbook Excel này dựa trên các vấn đề đã phát hiện.
Yêu cầu:
- Không chỉnh sửa sheet dữ liệu gốc
- Tạo một sheet mới tên là Cleaned Data
- Chuẩn hoá kiểu dữ liệu cho các cột cần thiết
- Chuyển các cột tiền tệ như Value, Wage, Release Clause về dạng số
- Chuẩn hoá các cột ngày tháng và chiều cao nếu cần
- Giữ lại các cột có giá trị cho phân tích
- Tạo thêm một sheet Cleaning Log ghi rõ các bước đã xử lý.
Đối với Outliers:
- Không được tự động xóa outlier chỉ vì giá trị lớn hoặc nhỏ bất thường.
- Chỉ xử lý nếu đã được xác định là lỗi dữ liệu.
- Nếu không chắc chắn, giữ nguyên dữ liệu và đánh dấu để review”.
Mình đợi khoảng 3-5 phút thì Claude tạo cho mình một sheet dữ liệu đã clean. Trong quá trình xử lý, Claude có thể hỏi thêm một vài quyền thao tác với file, lúc đó mình chỉ cần nhấn “Allow” để tiếp tục là được nha.
Đây là sheet mà AI trả về cho mình:
Nhìn qua thì các lỗi Claude phát hiện trước đó đều đã được sửa. Một điểm mình khá thích là Claude còn sắp xếp lại các cột liên quan gần nhau hơn, nên file nhìn cũng dễ theo dõi hơn.
Ví dụ cho mọi người dễ hình dung nha:
Sau khi trả về sheet data đã clean xong thì Claude tạo cho mình một sheet Cleaning Log như thế này để mình tiện theo dõi xem những dữ liệu nào đã được làm sạch:
Cách làm này khá tiện nếu bạn muốn có một phiên bản dữ liệu sạch nhanh để kiểm tra hoặc phân tích thử. Thay vì tự xử lý thủ công từng bước, mình có thể để Claude tạo sẵn một sheet mới với dữ liệu đã được chuẩn hoá.
Tuy nhiên, mình sẽ không dùng luôn file AI trả về để phân tích. Vì ngoài khả năng hiểu sai logic ở một vài cột, AI cũng có thể tự nhận diện một số dòng hoặc cột là không cần thiết và xoá đi, trong khi những dữ liệu đó vẫn có thể ảnh hưởng đến kết quả phân tích sau này.
Vì vậy, bước tiếp theo mình sẽ nhờ Claude kiểm tra lại xem trong file còn lỗi nào chưa đc xử lý không.
Bước 3: Nhờ Claude giải thích các bước đã xử lý và chỉ ra điểm cần kiểm tra lại
Một trong những điều khiến mình đắn đo nhất khi dùng AI để xử lý dữ liệu là: Làm sao để chắc chắn Claude đã clean hết lỗi trong file?.
Bởi với những file dữ liệu lớn, rất khó để ngồi dò từng dòng từng cột một để check xem liệu còn lỗi nào chưa được xử lý hay không. Vì vậy, sau khi Claude tạo xong sheet Cleaned Data, mình tiếp tục prompt để AI kiểm tra lại một lần nữa:
“Hãy kiểm tra lại sheet Cleaned Data và so sánh với sheet dữ liệu gốc.
Yêu cầu:
- Liệt kê các lỗi dữ liệu đã được xử lý
- Kiểm tra xem còn giá trị thiếu, sai kiểu dữ liệu hoặc format bất thường không
- So sánh số dòng trước và sau khi cleaning
- Kiểm tra một vài giá trị mẫu ở các cột đã transform
- Chỉ ra những điểm tôi nên tự kiểm tra thủ công trước khi phân tích.”
Sau khi Claude trả về kết quả, mình vẫn kiểm tra lại một lượt và phát hiện một lỗi khá rõ ở cột Height: có một dòng đang có giá trị 17888.
Đây là kiểu lỗi mà nếu nhìn trong bảng dữ liệu lớn thì khá dễ bị bỏ qua, nhưng khi kiểm tra Min/Max hoặc nhờ Claude rà lại các giá trị bất thường, nó sẽ nổi lên ngay. Vì chiều cao của cầu thủ thường chỉ dao động quanh một khoảng hợp lý, nên 17888 gần như chắc chắn là lỗi nhập liệu.
Trong trường hợp này, mình sẽ không yêu cầu AI tự đoán và sửa toàn bộ. Mình chọn tự sửa tay giá trị 17888 thành 178, vì khả năng cao đây là lỗi đánh thừa số 8 khi nhập dữ liệu.
Bước này giúp mình có một lớp kiểm tra thứ hai, thay vì chỉ nhận file cleaned data rồi dùng luôn.
Bước 4: Dùng Power Query để kiểm tra dữ liệu có bị mất dòng/cột không
Vì mình vốn khá kỹ tính với dữ liệu nên để cho chắc chắn, mình vẫn muốn có thêm một lớp kiểm tra nữa trước khi bắt đầu phân tích. Mục tiêu của bước này là kiểm tra xem trong quá trình AI xử lý, dữ liệu có bị thay đổi sai cấu trúc hay không.
Ở bước này, mình dùng Power Query để đối chiếu lại một số điểm cơ bản:
Số dòng trước và sau khi clean có giống nhau không
Số cột có bị thiếu hoặc bị thêm bất thường không
Tên cột có bị đổi ngoài ý muốn không
Các cột quan trọng như ID, Name, Height, Value, Wage, Release Clause có còn được giữ lại đầy đủ không
Kiểu dữ liệu của các cột chính có được chuyển đúng không
Cách kiểm tra này là phần mình được học trong khóa Excel & AI for Data Analytics của Tomorrow Marketers. Với mình, đây là bước “confirm” lại lần cuối để chắc chắn file dữ liệu đủ ổn trước khi chuyển sang tạo dashboard và phân tích.
Slide hướng dẫn sử dụng Power Query - thuộc khoá học Excel & AI for Data Analytics
Đọc thêm:
Nói ngắn gọn, Claude giúp mình tạo bản cleaned data nhanh hơn, còn Power Query giúp mình kiểm soát lại cấu trúc dữ liệu. Nhờ vậy, mình có thể hạn chế rủi ro dữ liệu bị mất dòng, mất cột hoặc bị thay đổi ngoài ý muốn trước khi bước sang phân tích.
Tạm kết
Sau khi thử dùng Claude để làm sạch dữ liệu trong Excel, mình thấy AI thật sự giúp tiết kiệm khá nhiều thời gian.
AI có thể đọc file nhanh, phát hiện lỗi, đề xuất hướng xử lý, thậm chí tạo luôn một sheet dữ liệu đã được làm sạch để mình kiểm tra. Với những bước như rà format, chuyển kiểu dữ liệu, tìm giá trị bất thường hay gợi ý workflow, AI là một trợ lý rất hữu ích.
Tuy nhiên, có một điểm mình nghĩ rất cần lưu ý khi dùng AI để xử lý file Excel đó là tính chính xác và vấn đề bảo mật dữ liệu.
Về tính chính xác, mình sẽ không mặc định file AI trả về là đúng 100%. AI có thể xử lý rất nhanh, nhưng vẫn có khả năng hiểu sai logic, sửa nhầm giá trị, xoá nhầm dòng/cột hoặc bỏ sót một vài điểm bất thường. Vì vậy, sau khi để AI clean dữ liệu, mình vẫn cần kiểm tra lại bằng Power Query trước khi dùng file đó để phân tích.
Còn về tính bảo mật, trong ví dụ này, mình dùng dataset thực hành nên không có vấn đề gì quá nhạy cảm. Nhưng nếu bạn đang làm với dữ liệu nội bộ của công ty, dữ liệu khách hàng, doanh thu, chi phí, lương thưởng hoặc bất kỳ thông tin nào chưa được phép chia sẻ ra bên ngoài, thì không nên upload trực tiếp lên AI chỉ để xử lý cho nhanh.
Và nói thật là càng dùng, mình càng nhận ra rằng AI không làm mất đi nhu cầu học phân tích dữ liệu bài bản. Ngược lại, nó khiến nền tảng này quan trọng hơn.
Vì nếu không hiểu dữ liệu, mình sẽ rất khó biết output của AI có hợp lý không. Nếu không biết logic phân tích, mình dễ copy một kết quả trông có vẻ đúng nhưng thực ra sai từ bước xử lý. Nếu không hiểu Excel, Power Query hay cách dữ liệu được transform, mình cũng khó phát hiện khi AI sửa nhầm, xoá nhầm hoặc diễn giải sai một cột nào đó.
Vậy nên với mình, AI không phải là lý do để bạn bỏ qua Excel hay kỹ năng phân tích dữ liệu.
Nói ngắn gọn lại thì AI nên được xem như một lớp hỗ trợ trong workflow, giúp mình làm nhanh hơn, rà kỹ hơn và có thêm gợi ý khi xử lý dữ liệu. Nhưng để dùng AI hiệu quả, mình vẫn cần có nền tảng dữ liệu, biết cách đặt câu hỏi, hiểu logic dữ liệu, kiểm tra kết quả và chịu trách nhiệm với phân tích cuối cùng.
À, nếu bạn muốn học cách xử lý dữ liệu trong Excel bài bản hơn, không chỉ biết vài công thức rời rạc mà hiểu được toàn bộ workflow từ làm sạch dữ liệu, phân tích, trực quan hoá đến ứng dụng AI để làm nhanh và kiểm tra tốt hơn, bạn có thể tham khảo khóa học Excel & AI for Data Analytics của Tomorrow Marketers nhé!
Và đừng quên subscribe “Analytics & AI Strategy” nếu bạn cảm thấy bài viết này hữu ích nhé! Hẹn gặp các bạn trong những bài viết sau ^^














