یک موضوع مهم به نام موقعیت اجتماعی در شبکه های اجتماعی که در این مقاله بررسی شده است. با ما همراه باشید.
عنوان: Classifying Social Position with Social Media Behavioral Data
نویسنده و ژورنال: Koltai et al., EPJ Data Science (2025)
🎯چکیده و هدف پژوهش
پژوهش بررسی میکند که آیا میتوان موقعیت اجتماعی افراد را صرفاً بر اساس رفتار دیجیتال آنها در شبکههای اجتماعی (بهویژه فیسبوک) پیشبینی کرد یا نه. دادهها از طرحی موسوم به data donation بهدست آمدند که هم شامل رفتار واقعی آنلاین و هم ویژگیهای اجتماعی- اقتصادی پاسخدهندگان بود (نمونهای نماینده از کاربران اینترنت مجارستان). هدف، آزمودن کارایی مدلهای یادگیری ماشین برای طبقهبندی افراد طبق شاخص European Socio-economic Classification (ESeC) است.
⚙️روششناسی
- نمونه و گردآوری دادهها:
۷۵۸ شرکتکننده (۱۶ سال به بالا)، گردآوری از فوریه تا ژوئن ۲۰۲۳، نماینده جمعیت کاربران اینترنت در مجارستان.
شرکتکنندگان دادههای فیسبوک و گوگل خود را بارگذاری کردند و سپس پرسشنامهای مفصل درباره وضعیت شغلی، درآمد، تحصیلات و مشخصات جمعیتی را پر کردند. - متغیرها:
- متغیر هدف: موقعیت اجتماعی طبق ESeC پنجسطحی (از طبقه خدمات عالی تا کارگران غیرماهر).
 - ویژگیهای ورودی: زمان و بسامد استفاده از فیسبوک، اندازه شبکه دوستان، فعالیتها (پست، کامنت، گروه، رویداد، صفحه)، ویژگیهای زبانی متنها (تنوع واژگان، نشانهگذاری، ایموجی)، و دستههای علاقهمندی.
 - دادهها نرمالسازی زمانی شدند (۵ سال اخیر، و نسخهٔ آزمون برای ۲ سال اخیر).
 
 - مدلها:
XGBoost (مدل پایه) با اعتبارسنجی متقاطع دهتایی، همراه با آزمونهای استحکام با Random Forest و TabNet.
علاوه بر مدلهای مبتنی بر رفتار دیجیتال، نسخهای با افزودن متغیرهای جمعیتی (سن، جنس، تحصیلات، محل سکونت) نیز اجرا شد. 
.

📈 نتایج کلیدی
- عملکرد مدل پایه (فقط رفتار دیجیتال):
دقت کلی XGBoost برابر با ۳۲٫۷٪ بود (بالاتر از حد تصادفی ۲۰٪ برای ۵ طبقه). بهترین عملکرد در تشخیص کارگران غیرماهر (۵۴٫۵٪) و ضعیفترین در خدمات عالی. - مدلهای جایگزین:
Random Forest ≈۲۵٪ و TabNet ≈۲۰٪ دقت داشتند. مدلهای محدود به دو سال اخیر عملکردی مشابه یا اندکی ضعیفتر داشتند.
در نسخهٔ چهارردهای (SES چهارکاتگوری)، دقت XGBoost به ۳۸٪ رسید. - افزودن متغیرهای جمعیتی:
دقت به ۵۰٪ افزایش یافت؛ یعنی ۳۰٪ بالاتر از تصادف — نشاندهندهٔ نقش قوی ویژگیهای آفلاین در تعیین موقعیت اجتماعی. - ویژگیهای مؤثر:
تنوع زبانی، نشانهگذاری، طول متن، تعداد ایموجی، اندازه شبکه دوستان، مدت و بسامد استفاده، و دستههای علاقهمندی (هنر، سفر، علم در طبقات بالا؛ ورزش و خودرو در پایین) بیشترین سهم را داشتند.
افراد طبقه بالا شبکه بزرگتر و فعالیتهای رویدادی بیشتری دارند و کمتر پست میگذارند؛ طبقات پایینتر فعالترند ولی محتوای کوتاهتر و سادهتر دارند. 
بحث و استنتاجها
- مدلها میتوانند نشانههایی از موقعیت اجتماعی را از ردپای دیجیتال استخراج کنند، ولی توان پیشبینی بالا ندارند.
 - بهترین تمایز میان پایینترین و بالاترین طبقات حاصل شد.
 - شواهد حاکی از آن است که کاربران طبقات پایینتر در فضای دیجیتال قابلشناساییترند (ردپای رفتاری برجستهتر).
 - ترکیب دادههای رفتاری با متغیرهای اجتماعیـجمعیتی برای دستیابی به پیشبینیهای دقیقتر ضروری است.
 - پژوهش از نظر روششناسی نشان میدهد دادهاهدایی با رضایت کاربر میتواند ابزار اخلاقی و معتبر برای بررسی نابرابری دیجیتال باشد.
 
نتیجهٔ نهایی
رفتار دیجیتال بهتنهایی برای تعیین دقیق طبقه اجتماعی کافی نیست، اما الگوهای زمانی، زبانی و شبکهای شاخصهای معناداری از تفاوت طبقاتی فراهم میکنند. ترکیب دادههای رفتاری با ویژگیهای سنتی اجتماعی میتواند تصویری روشنتر از نابرابریهای دیجیتال ارائه دهد.
دانلود کامل مقاله: