Ứng dụng hàng đợi và các kỹ thuật xử lý ngôn ngữ tự nhiên để xây dựng công cụ trích xuất và tóm tắt nội dung trang web
Đây là một đồ án môn học thuộc học phần Cấu trúc dữ liệu giải thuật của đại học kinh tế UEH.
Dự án được lập trình chính bằng ngôn ngữ Javascript và Java, với các công nghệ được trình bày như hình vẽ.
Dự án mong muốn tạo ra một ứng dụng web với các chức năng:
- Cào dữ liệu HTML từ một trang web hoặc đọc HTML từ một file.
- Sử dụng hàng đợi để lọc các đoạn nội dung (content).
- Tóm tắt nội dung bằng chatbot.
Để thiết lập dự án, thực hiện các bước sau:
- Cài đặt npm
Xem chi tiết tại npm documentation. - Cài đặt Maven management (mvn)
Xem chi tiết tại Maven documentation. - Thiết lập MongoDB Atlas
Xem chi tiết tại MongoDB Atlas documentation. - Cài đặt biến môi trường
set OPENAI_KEY=<YOUR OPENAI KEY> set DATABASE_NAME=<YOUR Mongodb DB name> set DATABASE_URI=<YOUR DB URI>
Clone dự án từ GitHub:
git clone [<project-repo-link> # Thay <project-repo-link> bằng liên kết dự án của bạn](https://github.com/dinhtanloc/Scrawler-Web-data-using-DSA-Algorithm.git)Tại thư mục chính của dự án, sử dụng terminal để thiết lập các thư mục con:
cd frontend
npm i
npm run devFrontend sẽ được chạy ở cổng 3000.
cd backend
mvn clean install
mvn spring-boot:runBackend sẽ được chạy ở cổng 8080.
COLLECTION_NAME: chunks- Cần đảm bảo các biến môi trường được thiết lập chính xác.
- Hãy kiểm tra tài liệu hướng dẫn chi tiết trong các liên kết bên trên nếu gặp vấn đề.
- Đây là báo cáo đồ án chi tiết Docs
- Link video demo ở đây: Video Demo
