پرش به محتوا پرش به پاورقی

دسته‌بندی موقعیت اجتماعی با داده‌های رفتاری شبکه‌های اجتماعی

یک موضوع مهم به نام موقعیت اجتماعی در شبکه های اجتماعی که در این مقاله بررسی شده است. با ما همراه باشید.

عنوان: Classifying Social Position with Social Media Behavioral Data

نویسنده و ژورنال: Koltai et al., EPJ Data Science (2025)

🎯چکیده و هدف پژوهش

پژوهش بررسی می‌کند که آیا می‌توان موقعیت اجتماعی افراد را صرفاً بر اساس رفتار دیجیتال آن‌ها در شبکه‌های اجتماعی (به‌ویژه فیسبوک) پیش‌بینی کرد یا نه. داده‌ها از طرحی موسوم به data donation به‌دست آمدند که هم شامل رفتار واقعی آنلاین و هم ویژگی‌های اجتماعی‌- اقتصادی پاسخ‌دهندگان بود (نمونه‌ای نماینده از کاربران اینترنت مجارستان). هدف، آزمودن کارایی مدل‌های یادگیری ماشین برای طبقه‌بندی افراد طبق شاخص European Socio-economic Classification (ESeC) است.

⚙️روش‌شناسی

  • نمونه و گردآوری داده‌ها:
    ۷۵۸ شرکت‌کننده (۱۶ سال به بالا)، گردآوری از فوریه تا ژوئن ۲۰۲۳، نماینده جمعیت کاربران اینترنت در مجارستان.
    شرکت‌کنندگان داده‌های فیسبوک و گوگل خود را بارگذاری کردند و سپس پرسشنامه‌ای مفصل درباره وضعیت شغلی، درآمد، تحصیلات و مشخصات جمعیتی را پر کردند.
  • متغیرها:
    • متغیر هدف: موقعیت اجتماعی طبق ESeC پنج‌سطحی (از طبقه خدمات عالی تا کارگران غیرماهر).
    • ویژگی‌های ورودی: زمان و بسامد استفاده از فیسبوک، اندازه شبکه دوستان، فعالیت‌ها (پست، کامنت، گروه، رویداد، صفحه)، ویژگی‌های زبانی متن‌ها (تنوع واژگان، نشانه‌گذاری، ایموجی)، و دسته‌های علاقه‌مندی.
    • داده‌ها نرمال‌سازی زمانی شدند (۵ سال اخیر، و نسخهٔ آزمون برای ۲ سال اخیر).
  • مدل‌ها:
    XGBoost (مدل پایه) با اعتبارسنجی متقاطع ده‌تایی، همراه با آزمون‌های استحکام با Random Forest و TabNet.
    علاوه بر مدل‌های مبتنی بر رفتار دیجیتال، نسخه‌ای با افزودن متغیرهای جمعیتی (سن، جنس، تحصیلات، محل سکونت) نیز اجرا شد.

.

📈 نتایج کلیدی

  • عملکرد مدل پایه (فقط رفتار دیجیتال):
    دقت کلی XGBoost برابر با ۳۲٫۷٪ بود (بالاتر از حد تصادفی ۲۰٪ برای ۵ طبقه). بهترین عملکرد در تشخیص کارگران غیرماهر (۵۴٫۵٪) و ضعیف‌ترین در خدمات عالی.
  • مدل‌های جایگزین:
    Random Forest ≈۲۵٪ و TabNet ≈۲۰٪ دقت داشتند. مدل‌های محدود به دو سال اخیر عملکردی مشابه یا اندکی ضعیف‌تر داشتند.
    در نسخهٔ چهار‌رده‌ای (SES چهار‌کاتگوری)، دقت XGBoost به ۳۸٪ رسید.
  • افزودن متغیرهای جمعیتی:
    دقت به ۵۰٪ افزایش یافت؛ یعنی ۳۰٪ بالاتر از تصادف — نشان‌دهندهٔ نقش قوی ویژگی‌های آفلاین در تعیین موقعیت اجتماعی.
  • ویژگی‌های مؤثر:
    تنوع زبانی، نشانه‌گذاری، طول متن، تعداد ایموجی، اندازه شبکه دوستان، مدت و بسامد استفاده، و دسته‌های علاقه‌مندی (هنر، سفر، علم در طبقات بالا؛ ورزش و خودرو در پایین) بیشترین سهم را داشتند.
    افراد طبقه بالا شبکه بزرگ‌تر و فعالیت‌های رویدادی بیشتری دارند و کمتر پست می‌گذارند؛ طبقات پایین‌تر فعال‌ترند ولی محتوای کوتاه‌تر و ساده‌تر دارند.

بحث و استنتاج‌ها

  • مدل‌ها می‌توانند نشانه‌هایی از موقعیت اجتماعی را از ردپای دیجیتال استخراج کنند، ولی توان پیش‌بینی بالا ندارند.
  • بهترین تمایز میان پایین‌ترین و بالاترین طبقات حاصل شد.
  • شواهد حاکی از آن است که کاربران طبقات پایین‌تر در فضای دیجیتال قابل‌شناسایی‌ترند (ردپای رفتاری برجسته‌تر).
  • ترکیب داده‌های رفتاری با متغیرهای اجتماعی‌ـ‌جمعیتی برای دستیابی به پیش‌بینی‌های دقیق‌تر ضروری است.
  • پژوهش از نظر روش‌شناسی نشان می‌دهد داده‌اهدایی با رضایت کاربر می‌تواند ابزار اخلاقی و معتبر برای بررسی نابرابری دیجیتال باشد.

نتیجهٔ نهایی

رفتار دیجیتال به‌تنهایی برای تعیین دقیق طبقه اجتماعی کافی نیست، اما الگوهای زمانی، زبانی و شبکه‌ای شاخص‌های معناداری از تفاوت طبقاتی فراهم می‌کنند. ترکیب داده‌های رفتاری با ویژگی‌های سنتی اجتماعی می‌تواند تصویری روشن‌تر از نابرابری‌های دیجیتال ارائه دهد.

دانلود کامل مقاله:

پیام بگذارید