goemotions ve duygusal yapay nöronlar

entry1 galeri2
    1.
  1. GoEmotions: Ayrıntılı Duygu Sınıflandırması için Bir Veri Seti

    https://galeri.uludagsozluk.com/r/2435199/+

    Duygular, sosyal etkileşimlerin temel bir unsurudur ve insanların davranış biçimlerini etkileyerek ilişkileri şekillendirir. Bu özellikle dil için geçerlidir; yalnızca birkaç kelimeyle çok çeşitli incelikli ve karmaşık duyguları ifade edebiliriz. Bu nedenle, araştırma topluluğunun uzun vadeli hedefi, makinelerin bağlamı ve duyguyu anlamasını sağlamak olmuştur . Bu da, empatik sohbet robotları, zararlı çevrimiçi davranışları tespit eden modeller ve gelişmiş müşteri destek etkileşimleri gibi çeşitli uygulamaların önünü açacaktır.

    Son on yılda, NLP için çeşitli veri kümeleri kullanıma sunmuştur araştırma topluluğu dil tabanlı duygu sınıflandırması . Bunların çoğu elle oluşturulmuş ve hedeflenen alanları ( haber başlıkları , film altyazıları ve hatta masallar altı temel duyguya (öfke, şaşkınlık, tiksinti, neşe, korku ve üzüntü) odaklanır ) kapsasa da nispeten küçük olma eğilimindedir veya yalnızca 1992'de önerilen . Bu duygu veri kümeleri, duygu sınıflandırmasına yönelik ilk araştırmaları mümkün kılarken, aynı zamanda daha geniş bir gelecekteki potansiyel uygulama kapsamını kolaylaştırabilecek daha kapsamlı bir duygu kümesi yerine büyük ölçekli bir veri kümesine olan ihtiyacı da vurgulamıştır.

    GoEmotions: ince Ayrıntılı Duygular Veri Seti açıklıyoruz GoEmotions'ı yorumundan oluşan, insan eliyle açıklanmış bir veri kümesi olan etiketlenen 58 bin Reddit , popüler ingilizce alt dizinlerinden alınan ve 27 duygu kategorisiyle . Bugüne kadarki en büyük, tamamen açıklanmış ingilizce ince ayrıntılı duygu veri kümesi olan GoEmotions taksonomisini hem psikoloji hem de veri uygulanabilirliğini göz önünde bulundurarak tasarladık. Yalnızca bir olumlu duygu (neşe) içeren temel altı duygunun aksine, taksonomimiz 12 olumlu, 11 olumsuz, 4 belirsiz ve 1 "nötr" duygu kategorisi içerir ve bu da onu duygu ifadeleri arasında ince bir ayrım gerektiren konuşma anlama görevleri için oldukça uygun hale getirir.

    bir eğitimle birlikte yayınlıyoruz ayrıntılı sürecini gösteren GoEmotions veri setini , TensorFlow Model Garden'da bulunan GoEmotions kullanarak bir sinir modeli mimarisinin eğitilmesi ve konuşma metinlerine dayalı emojiler önerme görevi için uygulanması . GoEmotions Model Kartı'nda, GoEmotions ile oluşturulan modellerin ek kullanım alanlarının yanı sıra, verilerin kullanımına ilişkin hususlar ve sınırlamaları da ele alıyoruz.

    Veri Setinin Oluşturulması

    Amacımız, duygunun iletişimin kritik bir bileşeni olduğu, konuşma verilerine odaklanan geniş bir veri kümesi oluşturmaktı. Reddit platformu, doğrudan kullanıcılar arası sohbetleri de içeren geniş ve herkese açık bir içerik hacmi sunduğu için, duygu analizi için değerli bir kaynaktır. Bu nedenle, silinmiş ve ingilizce olmayan yorumlar hariç, en az 10.000 yoruma sahip alt dizinlerden alınan 2005'ten (Reddit'in başlangıcı) Ocak 2019'a kadarki Reddit yorumlarını kullanarak GoEmotions'ı oluşturduk.

    Geniş çapta temsili duygu modelleri oluşturabilmek için, veri setinin genel veya duyguya özgü dil önyargılarını güçlendirmediğinden emin olmak amacıyla veri düzenleme önlemleri uyguladık. Bu özellikle önemliydi çünkü Reddit'in genç erkek kullanıcılara yönelik bilinen bir demografik önyargısı vardı ve bu, küresel olarak çeşitli bir nüfusu yansıtmaz. Platform ayrıca zehirli, saldırgan bir dile doğru bir eğilim getiriyor . Bu endişeleri gidermek için, saldırgan/yetişkin ve kaba içerik ve kimlik ve din için önceden tanımlanmış terimler kullanarak zararlı yorumları belirledik ve bunları veri filtreleme ve maskeleme için kullandık. Ayrıca, küfürü azaltmak, metin uzunluğunu sınırlamak ve temsil edilen duygu ve hisleri dengelemek için verileri filtreledik. Popüler alt dizinlerin aşırı temsilini önlemek ve yorumların daha az aktif alt dizinleri de yansıttığından emin olmak için, verileri alt dizin toplulukları arasında da dengeledik.

    Üç hedefi bir arada en üst düzeye çıkarmayı hedefleyen bir taksonomi oluşturduk: (1) Reddit verilerinde ifade edilen duyguların en geniş kapsamını sağlamak; (2) duygusal ifade türlerinin en geniş kapsamını sağlamak; ve (3) toplam duygu sayısını ve bunların örtüşmelerini sınırlamak. Böyle bir taksonomi, veri odaklı, ayrıntılı duygu anlayışına olanak tanırken, aynı zamanda bazı duygular için olası veri seyrekliğini de ele alıyor.

    Taksonominin oluşturulması, duygu etiketi kategorilerini tanımlamak ve iyileştirmek için yinelemeli bir süreçti. Veri etiketleme aşamalarında toplam 56 duygu kategorisini ele aldık. Bu örneklemden, değerlendiriciler tarafından nadiren seçilen, diğer duygularla benzerlikleri nedeniyle değerlendiriciler arası düşük uyum gösteren veya metinden tespit edilmesi zor olan duyguları belirleyip çıkardık. Ayrıca, değerlendiriciler tarafından sıklıkla önerilen ve verilerde iyi temsil edilen duyguları da ekledik. Son olarak, yorumlanabilirliği en üst düzeye çıkarmak için duygu kategorisi adlarını iyileştirdik ve bu da değerlendiriciler arası yüksek uyumla sonuçlandı; örneklerin %94'ünde en az iki değerlendirici en az bir duygu etiketi üzerinde hemfikirdi.

    Yayımlanan GoEmotions veri seti, aşağıda sunulan taksonomiyi içermektedir ve hem taksonominin hem de derecelendirme standartlarının önceden tanımlandığı ve sabitlendiği son bir veri etiketleme turu yoluyla tamamen toplanmıştır.

    Veri Analizi ve Sonuçları



    Duygular GoEmotions veri setinde eşit olarak dağılmamıştır. Daha da önemlisi, olumlu duyguların yüksek sıklığı, kanonik altı temel duygunun sunduğundan daha çeşitli bir duygu sınıflandırması için motivasyonumuzu güçlendirir.

    Taksonomik tercihlerimizin temel verilerle uyumlu olduğunu doğrulamak için, temel korunan bileşen analizi iki veri kümesini, iki değerlendirici grubu arasında en yüksek ortak değişkenliği gösteren duygu yargılarının doğrusal kombinasyonlarını çıkararak karşılaştırmak için kullanılan bir yöntem olan (PPCA) yürütüyoruz. Bu yöntem, değerlendiriciler arasında yüksek oranda uyum gösteren duygu boyutlarını ortaya çıkarmamıza yardımcı oluyor. PPCA daha önce video ve konuşmada duygu tanımanın temel boyutlarını anlamak için kullanılıyordu ve biz de burada metindeki duygunun temel boyutlarını anlamak için kullanıyoruz.

    Her bileşenin anlamlı olduğunu (tüm boyutlar için p değerleri < 1,5e-6) bulduk; bu da her duygunun verinin benzersiz bir bölümünü yansıttığını gösteriyor. Bu önemsiz bir sonuç değil, çünkü konuşmada duygu tanıma üzerine yapılan önceki çalışmalarda , 30 duygu boyutundan yalnızca 12'sinin anlamlı olduğu bulunmuştu.

    Tanımlanan duyguların kümelenmesini, değerlendirici yargıları arasındaki korelasyonlara dayanarak inceliyoruz. Bu yaklaşımla, değerlendiriciler tarafından sık sık birlikte seçilen iki duygu bir araya gelecektir. Sınıflandırmamızda önceden tanımlanmış bir duygu kavramı olmamasına rağmen, duyguları ( olumsuz , olumlu ve belirsiz ) açısından ilişkili olan duyguların bir araya geldiğini görüyoruz; bu da derecelendirmelerin kalitesini ve tutarlılığını gösteriyor. Örneğin, bir değerlendirici belirli bir yorum için etiket olarak "heyecan"ı seçtiyse, başka bir değerlendiricinin "korku" yerine "neşe" gibi ilişkili bir duyguyu seçmesi daha olasıdır. Belki de şaşırtıcı bir şekilde, tüm belirsiz duygular bir araya gelmiş ve olumlu duygularla daha yakın bir şekilde kümelenmiştir.

    Gelecekteki Çalışmalar: insan Etiketlemesine Alternatifler

    GoEmotions, insanlar tarafından açıklanmış geniş bir duygu verisi kümesi sunarken, otomatik zayıf etiketleme için sezgisel yöntemler kullanan ek duygu veri kümeleri de mevcuttur. Baskın sezgisel yöntem, duygu kategorileri olarak duyguyla ilgili Twitter etiketlerini kullanır ve bu da büyük veri kümelerinin uygun maliyetle oluşturulmasını sağlar. Ancak bu yaklaşım birçok nedenden dolayı sınırlıdır: Twitter'da kullanılan dil, diğer birçok dil alanından açıkça farklıdır ve bu da verilerin uygulanabilirliğini sınırlar; etiketler insanlar tarafından oluşturulur ve doğrudan kullanıldığında tekrarlanmaya, örtüşmeye ve diğer taksonomik tutarsızlıklara eğilimlidir; ve bu yaklaşımın Twitter'a özgü olması, uygulamalarını diğer dil külliyatlarıyla sınırlar.

    Kullanıcı sohbetlerine eklenen emojilerin duygu kategorileri için bir vekil görevi gördüğü alternatif ve daha kolay erişilebilir bir yöntem öneriyoruz. Bu yaklaşım, birçoğu konuşma dilinde olanlar da dahil olmak üzere, makul sayıda emoji içeren tüm dil birimlerine uygulanabilir. Emojiler, Twitter etiketlerinden daha standart ve daha az seyrek oldukları için daha az tutarsızlık gösterirler.

    Önerilen yaklaşımların her ikisinin de (Twitter etiketleri ve emojiler) doğrudan duygu anlayışını değil, konuşma ifadesinin farklı biçimlerini hedeflediğini unutmayın. Örneğin, aşağıdaki konuşmada ???? minnettarlığı, ???? kutlama ifadesini ve ???? ise "şimdi" ifadesinin tam anlamıyla yerine geçen bir ifadeyi ifade eder. Benzer şekilde, birçok emoji duyguyla ilgili ifadelerle ilişkilendirilirken, duygular incelikli ve çok yönlüdür ve çoğu durumda hiçbir emoji bir duygunun tüm karmaşıklığını tam olarak yansıtamaz. Dahası, emojiler duyguların ötesinde çeşitli ifadeleri de yakalar. Bu nedenlerden dolayı, onları duygudan ziyade ifade olarak değerlendiriyoruz.

    https://galeri.uludagsozluk.com/r/2435198/+
    0 ...
© 2025 uludağ sözlük