چگونه در R آنالیز واریانس (آنووا) یک‌طرفه انجام دهیم

1402/06/14

دسترسی سریع

چگونه در R آنالیز واریانس (آنووا) یک‌طرفه انجام دهیم چند ماهی از پست قبلی این وبلاگ می‌گذرد و این به دلیل مشغله‌های شخصی من بوده، و این وضع حداقل تا اردیبهشت ادامه خواهد داشت. بنده به دلیل این که درگیر کنکور هستم نمی‌توانم با خیال راحت در اینجا مطلب بگذارم، بنابراین به شدت از نویسنده‌ی مهمان استقبال می‌کنم. برای درس زبان در کنکور احتیاج به این داشتم که از لغات مهم کنکور، یک فلش کارت سازگار با نرم‌افزار/اپ Anki بسازم. نقطه‌ی شروع هم pdf کنکور سال قبل بود. ۳ صفحه زبان را از فایل pdf کندم و در گوگل درایو آپلود کردم. گوگل یک ocr بسیار بسیار خفن داخل این سرویس قرار داده است، برای استفاده از آن کافی است مانند عکس زیر روی فایل pdf در گوگل درایو کلیک راست کنید و گزینه‌ی باز کردن با سندنگار را انتخاب کنید. ( این یک پاسخ برای جستجوی پایان‌ناپذیر دانشجویان ایرانی برای تبدیل pdf به word است)

این کار فایل pdf را از این حالت:

به این حالت با متن قابل کپی شدن تبدیل کرد:

همانطور که در عکس هم مشخص است، متن کمی به هم ریخته و بعضی از کلمات هم شناسایی نشده‌اند اما نتیجه برای کاری که من می‌خواستم انجام بدهم کافی بود. چون متن کوتاه است از همینجا یکسری بخش‌های اضافی را پاک می‌کنیم اما در صورتی که مثلا سر یک کتاب بخواهید این بلا را بیاورید، این کار ممکن نیست. مرحله بعدی وارد کردن این متن به R است، راحترین راه برای این کار، این است که متن را در یک فایل متنی(طبیعتا فرمت txt) ذخیره کنید و آن را در working directory قرار دهید. working directory یا wd پوشه‌ای است که R در حال حاضر از آن استفاده می‌کند و فایلها را به ضورت پیش‌فرض در آن ذخیره می‌کند. این کار، نیاز به آدرس دادن به فایل در محیط کار را از بین می‌برد زیرا اگر آدرس فایل را در دستوری که به آن نیاز دارد وارد نکنید (احتمالا) R به صورت پیش‌فرض در working directory به دنبال آن می‌گردد. دستور getwd در R محل این پوشه روی سیستم را به شما نشان می‌دهد، همچنین با استفاده از setwd می‌توانید این پوشه را تغییر دهید. حالا نوبت این رسیده است که از متن‌کاوی استفاده کنیم. با دستور زیر، یکی از پکیج‌های متن‌کاوی را که tm نام دارد نصب و فراخوانی می‌کنیم:

معمولا در متن کاوی، به وجود آوردن پیکره‌ی متن از فایل یا text corpus قدم اول کار است، این کار با دستور زیر انجام می‌شود:

من فایل را درون پوشه‌ای به نام text در داخل working directory گذاشته بودم و دستور بالا، متن آن را خواند و در text-corpus ذخیره کرد. در متن مقدار زیادی کاراکتر اضافی وجود دارد(اعداد، پرانتزها و …) دستورهای زیر، این کاراکترهای اضافی را حذف می‌کنند:

کاری که دستور بالا انجام داد کلی فایده دارد که در لینک خط قبلی آمده اما در اینجا کاری که برای ما انجام می‌دهد این است که همه‌ی کلمات متن را از هم جدا می‌کند. با دستور زیر می‌توانید تمامی کلمات به همراه تعداد تکرار آنها را ببینید:

از ماتریس واژه‌ها کلمات را بیرون می‌کشیم تا آنها را ترجمه کنیم و از آنها فلش‌کارت بسازیم:

نظرات

هیچ نظری وجود ندارد.

چگونه در R آنالیز واریانس (آنووا) یک‌طرفه انجام دهیم

دسترسی سریع

نظرات

افزودن نظر

آخرین مقالات