İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Makine Öğrenimiyle Instagram Kitlesel Tur Kullanıcılarını Belirleme

Şu yazıyı okuyorsunuz: Instagram Kitlesel Kullanıcılarını Makine Öğrenimiyle Belirleme

İtalya ve İran’daki araştırmacılar, Instagram platformundaki (otomatik değil) insan hesaplarındaki ‘kitlesel çimlenme’ etkinliğini tanıyabilen ilk makine öğrenimi sistemini formüle ettiklerini iddia ediyorlar. Crowdturfer’lar, söz konusu etkinliği toptan satan platformlar için “profil oluşturma” hizmetlerini gerçekleştiren gerçek kişilerdir.

Yeni yöntem, %95 civarında bir doğruluk puanı talep ediyor ve doğal dil işleme (NLP) sistemlerinde yarı denetimli öğrenmeyi kullanıyor.

Yazarlar, bilgileri dahilinde, sistemlerinin, sahte ücretli profilleri meşgul eden ve destekleyen bot olmayan hesapları güvenilir bir şekilde hedefleyebilen ilk kitlesel turfing (CT) dedektör sistemini temsil ettiğini belirtiyor.

Bunu başarmak için yazarlar, CT dedektörlerini eğitmek amacıyla veri elde etmek amacıyla 11 CT platform sağlayıcısından 1293 kitlesel turfing profili satın aldı. Araştırmacılar, Instagram’da bir dizi etkili anti-bot karşıtı önlem bulunduğundan, platformun devasa kullanıcı tabanından ticari amaçlarla yararlanmak isteyenlerin, botlarla “stratejik olarak etkileşimde bulunmaları” için gerçekten nüfuz sahibi Instagram kullanıcılarına para ödemeye başvurduklarını belirtiyor. öncelikle yorumları paylaşarak veya gönderilere yorum yapmayla ilgili etkinlikler aracılığıyla.

Modeli eğittikten sonra yazarlar, her biri 1 milyondan fazla takipçiye sahip 20 ‘mega etkileyicinin’ etkileşim profillerini analiz etmeye başladılar ve şu sonuca vardılar: ‘Katılımlarının yüzde 20’sinden fazlası yapaydı’.

O kağıt onun başlığı Hepimiz bir Truman şovunda mıyız? Kendi kendine eğitim yoluyla Instagram Kitlesel Turfing’i tespit edinİtalya’daki Padua Üniversitesi ve İran’daki İmam Rıza Üniversitesi’nden beş araştırmacıdan geliyor.

Instagram Hizmet Şartlarının İhlali

Sosyal medya araştırmacıları tarafından tercih edilen Twitter’ın aksine, bağlılık Soruşturmaya yardımcı olmak amacıyla Instagram, araştırmacılara yardımcı olmak amacıyla API’ler veya güncellenmiş veri dökümleri sağlamakla kalmıyor, aynı zamanda Hizmet Şartları’nda makine kontrollü taramayı da yasaklıyor. Bu nedenle araştırmacıların ilk görevi, yönetimdeki Kurumsal İnceleme Kurulundan şu gerekçelerle gerekçelendirilen bir muafiyet elde etmekti: öncesi oynar ‘gizli faaliyetleri’ araştırmak için benzer bir yaklaşım kullandı.

Araştırmacıların kendi amaçları doğrultusunda oluşturdukları yeni Instagram hesapları için kitlesel turfing hizmetleri satın alındı ​​ve bu hesaplar, “meşru” kullanıcıların katılımı göz ardı edilerek deney sonrasında silindi. Ne incelenen etkileyici hesaplar ne de CT platformunun hizmetleri adlandırılıyor.

Bir diğer etik engel ise araştırmacıların incelenen etkileyicilerin onayını talep edememesiydi. Hawthorne etkisi (yani etkileyicilerin davranışlarını değiştirebilirdi) ve bu muafiyet de IRB tarafından verildi.

Son olarak Instagram, verilerin ‘manuel olarak toplanmasına’ izin verdiğinden, araştırmacılar, otomatik çıkarma araçlarını beş aylık bir veri toplama aşaması gerektiren ‘insan hızına’ ayarlayarak Hizmet Şartlarını ihlal etme kararı aldılar.

satılık insanlar

Araştırmacılar, 11 (isimsiz) sağlayıcının her birinden 100 ‘sahte takipçi’ profili satın aldı.

Belge şunu söylüyor*:

“Seçtiğimiz tüm sağlayıcılar, etkileşim oranlarını artırmak için hedef profillerle gönderilerini beğenerek ve yorum yaparak etkileşime giren takipçiler sağladığından emin oluyor.

Bu CT profilleri yüksek kaliteli takipçiler olarak tanımlanır ve genellikle “temel” sahte profillerden daha pahalıya mal olur. Bu sağlayıcıların güvenilirliği ünlü kuruluşlar tarafından desteklenmektedir. [review] TrustPilot gibi platformlar.’

Belgede, her biri gerçek dünyadaki etkileyici hesaplar için bir pazar yeri olan CT platform sağlayıcılarına (anonimleştirilmiş) ilişkin istatistikler yer alıyor. Belgede, her biri gerçek dünyadaki etkileyici hesaplar için bir pazar yeri olan CT platform sağlayıcılarına (anonimleştirilmiş) ilişkin istatistikler yer alıyor.

Belgede, her biri “yozlaşmış” gerçek dünyadaki etkileyici hesaplar için bir pazar yeri olan CT platform sağlayıcılarına (anonimleştirilmiş) ilişkin istatistikler yer alıyor. Bu tablo, sağlayıcılar tarafından bildirilen ve her kaynaktan satın alınan 100 profilin analizi yoluyla araştırmacılar tarafından elde edilen bilgileri özetlemektedir. Kaynak: https://arxiv.org/pdf/2206.12904.pdf

Gazete, bir Instagram fenomeni satın almanın ortalama maliyetinin o kadar da yüksek olmadığını, 100 ‘yüksek kaliteli’ takipçi başına yaklaşık 3 dolar olduğunu belirtiyor. Yazarlar şunu belirtiyor:

‘Çoğu tedarikçi izleyicileri birkaç saat içinde teslim ediyor. Düşme koruması sunuyorlar; bu, müşterinin satın aldığı takipçi sayısının zaman içinde sabit kalacağı veya kaybedilen takipçilerin yerine yeni takipçilerin getirileceği anlamına geliyor.

Araştırmacılar, yeni Instagram hesaplarından bazılarının bir ay sonra CT’nin %15 ila 20’si kadar takipçi kaybına uğradığını, ancak bazı durumlarda beklenenden fazla takipçi kazandığını belirtiyor. En pahalı CT sağlayıcısı için (yukarıdaki tabloda CT-10), bir ay sonra yalnızca üç takipçi kaybedildi.

Makale, CT sağlayıcısına ne kadar çok ödeme yaparsanız, takip edilen/takip edilen oranının daha ‘gerçek’ hale geldiğini, ikinci en pahalı sağlayıcının ise standart kullanıcının temel çizgisine çok yakın bir oran sunduğunu belirtiyor.

CT Instagram hesabının bir özelliği, profilinizin nadiren ‘özel’ olarak ayarlanmasıdır (çoğu analiz ilgili profillere ve yorumlara odaklandığından, satın alınan sahte takipçilerden verilerin çıkarılmasına izin veren bir gerçek), ancak bu görülmemelidir. bu konuda güvenilir bir “sinyal” olarak görülüyor.

‘Bu platformlara katılan insanlar, bazı durumlar (CT-4, CT-10) dışında kendilerini güvenilir kılan minimum sayıda yayın oluşturmakla ilgileniyorlar. Düşük kaliteli profiller takipçi ve takipçi sayısında çok yüksek bir dengesizlik gösterir ve ortalama gönderi sayısı 0’a yakın olup CT profillerinin çok altındadır.

Veri

Araştırmacılar, Selenium tarayıcı otomasyon çerçevesinin uygulanması yoluyla veri topladı. Ortaya çıkan veri seti, 1.293 CT ve 1.307 CT olmayan kullanıcı için profil bilgilerini içerir.

Kuşkusuz bu düşük numune boyutu, Selenyum’un makul bir süre boyunca güvenilir bir insan hızında yapılandırılmasını mümkün kıldı. Ayrıca yazarlar, yarı denetimli öğrenme tekniklerinin temsili/yorumlayıcı gücünün daha küçük veri kümelerine çok iyi ölçeklenebileceğini belirtmektedir. Bütünlük adına, tamamen denetlenen bir modelle deney yapan araştırmacılar şu sonuca varıyor:

‘[The] Yarı denetimli moddaki sonuçlar, denetimli moddaki sonuçlardan önemli ölçüde farklı değildir. Bu, CT profillerinin çok benzer özellikleri paylaştığını göstermektedir. [characteristics]ve algoritmanın yakınlaşabileceği [through a small amount of] etiketli veriler.’

Yazarlar, #videos öğesi gibi genellikle oluşturulduğunda gizlenen ayrıntılar da dahil olmak üzere, ‘etkili’ kullanıcıların profil sayfalarının kaynak kodundan mevcut tüm verileri topladı.

Daha sonra sıfır veya düşük varyansa sahip olanları kaldırarak veri özelliklerini ön işleme tabi tuttular ve son olarak kategorik veya sayısal olmayan verileri tam anlamıyla sayısal veya Boole özelliklerine dönüştürdüler.

Nihai veri setinin özellikleri.Nihai veri setinin özellikleri.

Nihai veri setinin özellikleri.

Yöntem ve Araştırmalar

Selenium’a ek olarak deneylerde kullanılan teknolojiler arasında şunlar yer alıyor: SpaCy’nin trafo tabanlı bir boru hattıyla uygulanan bir versiyonu; bir scikit öğrenir kendi kendine öğretilen sınıflandırıcı; ve Instagram şarj cihazı yapı.

Yeni belgede alışılagelmiş bir “sonuçlar” bölümü bulunmuyor, çünkü bu, ana odak noktasından bugüne kadar sapan bir hedef (örn. bozuk Instagram hesaplarının otomatik çıkarımı) (örn. Instagram’daki otomatik bot etkinliğinin otomatik çıkarımı) anlamına geliyor. karşılaştırılabilecek daha önce yapılmış hiçbir çalışma yoktur.

Araştırmacılar, satın alınan mevcut kullanıcılar üzerinde (bu gerçek hesaplar organik olmayan ücretli katılım faaliyetleri gerçekleştirdiğinden bunları basitçe ‘CT olmayan’ yerine ‘sahte’ olarak tanımlamakta rahatlar) geniş bir yelpazede yöntemler benimsemişlerdir. NLP’ye.

İncelenen yönler arasında dil analizi (CT dünyasında neredeyse her zaman varsayılan olarak İngilizce kullanılır, ancak CT platformları aynı zamanda İngilizce konuşmayan coğrafi konumlu takipçiler de sunar); yorum sayma (sahte kullanıcıların tespit edilme korkusuyla gerçek kullanıcıların sıklığına çok yakın kalması); ve ortak kelimelerin analizi:

Sahte ve gerçek kullanıcıların kelime bulutları.Sahte ve gerçek kullanıcıların kelime bulutları.

Sahte ve gerçek kullanıcıların kelime bulutları.

Belgede ‘dokter’ kelimesinin (yukarıdaki resme bakın) sahte hesaplardaki yaygınlığının belirli bir şirket içi kampanyayla ilişkili olduğu belirtiliyor:

‘Doktor’ [appeared] 1069 farklı yorumda. Spam gönderen hesapları daha ayrıntılı araştırarak [this] Yani amacı “Instagram doktorlarının” hesaplarına spam göndermek olan, botnet gibi görünen bir şeyin küçük bir kısmını bulduk. Bu doktorların hepsinin profillerinde, tıklandığında bir mesajla sohbeti başlatan bir WhatsApp iş bağlantısı bulunuyor.

Araştırmacıların çıkardığı sonuca göre bu garip yapı, gerçek Instagram kullanıcılarının etkinliklerini ararken rastladıkları büyük bir botnet’in kalıntısı olabilir.

Toplamda araştırmacılar, 248.388 benzersiz Instagram kullanıcısından 603.007 gönderi yorumu topladı; yazarların tahminine göre bunların 55.719’u kitlesel turfing hesabıydı.

Belge, toplanan verilerde kadınsı temaların baskınlığını ilgiyle belirtiyor. kullanmış GPU-PDMM (Twitter’daki zorunlu kısa gönderiler için geliştirilen bir teknik) mevcut 121.822 yorumdan 12.830 uygun yorumu çıkarmak için algoritma, 12 erkek ve 8 kadının içeriği dikkate alındığında yorumların çoğunluğunun kadınlarla ilgili konularla ilgili olduğunu buldu. .

Araştırmacıların deneylerinden birinde sahte konulardan çıkarılan en iyi 10 konu.Araştırmacıların deneylerinden birinde sahte konulardan çıkarılan en iyi 10 konu.

Araştırmacıların deneylerinden birinde sahte konulardan çıkarılan en iyi 10 konu.

Araştırmacılar şu sonuca varıyor:

‘[While] Instagram ve araştırma topluluğu botları ve otomatik hesapları tespit etmeye çok odaklandı, influencer pazarlamasını, Instagram platformunu ve kullanıcılarının çoğunluğunu olumsuz yönde etkileyen CT faaliyetleri hakkında daha fazla çalışma yapılması gerektiğine inanıyoruz.

*Araştırmacılar tarafından alıntılanan TrustPilot URL’si çıkarılmıştır.

İlk olarak 28 Haziran 2022’de yayınlandı.