Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Возможности и ограничения автоматического выявления негатива и позитива

Вокруг вопросов автоматизации выявления негатива и позитива в текстах при современном уровне развития систем мониторинга споры возникают часто. У критиков таких систем есть два основных аргумента. Первый - что автомат не может различить сарказм и юмор, а второй - что если в тексте есть два объекта (например, при сравнении типа "Мерседес" - гуано, и это известно каждому нормальному человеку, а вот "Лада Калина" - рулёззз") - автомат не поймет, к кому что относится.

Выскажу свое мнение по этому вопросу.

Автоматы действительно во многом уступают человеку, когда речь идет о понимании эмоций. Но они значительно превосходят человека в скорости работы. Поэтому, для практических целей бывает значительно важнее сделать охват в миллион страниц, нежели тщательно проанализировать десяток. И это, на практике, не приводит к проблемам, при современном развитии систем определения позитива и негатива. Поясню, почему.

Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на любой Интернет-форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.

Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.

Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.

Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?

На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?



Вот и в случае с системами определения динамики негатива и позитива - точно так же.

Источник






Tags: Евгений Ющук, Интернет-разведка, Конкурентная разведка, Мониторинг негатива и позитива
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments