Wiki - KEONHACAI COPA

Phân đoạn văn bản

Phân đoạn văn bản là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề.[1] Có hai quy trình chính để thực hiện việc phân tách văn bản đó là: (1) áp dụng quá trình tinh thần khi con người đọc văn bản và (2) áp dụng quá trình nhân tạo do máy tính xử lý và cũng là chủ đề của xử lý ngôn ngữ tự nhiên. Đây là bài toán không đơn giản. Một số ngôn ngữ viết có các điểm mốc rõ ràng để xác định ranh giới giữa các đơn vị văn bản, chẳng hạn như khoảng trắng giữa các từ trong tiếng Anh và các hình dạng chữ cái có thể phân biệt ở vị trí đầu tiên, ở giữa và ở cuối cùng trong tiếng Ả Rập. Tuy nhiên, những dấu hiệu nhận biết này như vậy đôi khi khá mơ hồ và không phải lúc nào xuất hiện rõ ràng ở tất cả các ngôn ngữ viết.

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Huang H., Zhang B. (2009) Text Segmentation. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_421
Wiki - Keonhacai copa chuyên cung cấp kiến thức thể thao, keonhacai tỷ lệ kèo, bóng đá, khoa học, kiến thức hằng ngày được chúng tôi cập nhật mỗi ngày mà bạn có thể tìm kiếm tại đây có nguồn bài viết: https://vi.wikipedia.org/wiki/Ph%C3%A2n_%C4%91o%E1%BA%A1n_v%C4%83n_b%E1%BA%A3n