متنکاوی، به دادهکاویای که بر روی متن انجام شود اشاره دارد. همچنین به عنوان آنالیز متن نیز شناخته میشود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، بطور معمول از فهم الگوها و گرایشها از طریق معانی و بوسیله یادگیری الگوهای آماری حاصل میشود. متن کاوی معمولاً درگیر در فرایند ساختاردهی به ورودیهای متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگیها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام میگیرد)، استخراج الگوهای درون دادههای ساختار یافته، و در نهایت ارزیابی و تفسیر خروجیها است. «پر کیفیت» در متن کاوی معمولاً به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دستهبندی متون، خوشه بندی متون، استخراج معنی و مفهوم، تولید ردهبندی دانهای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیتها است.
در دوره آموزشی Udemy Text Mining and Natural Language Processing in R با آموزش متن کاوی و پردازش زبان طبیعی با آر آشنا می شوید.