Как и неверифицируемые выборы, так и средство коммуникации без аутентификации и проверки подлинности -- хреновый инструмент. Вчера смотрел на ленту твиттера по хэштегу #10дек. В какой-то момент в ленту пришли боты и начали активно спамить. Я пошёл в Twitter API и за минуту сделал скриптег, который дампил все твиты с этим хэштегом в файлики, в формате JSON.
Ну а потом простая программка постпроцессинга удалила дубликаты сообщений (потому что скрипт запрашивал последние 100 твитов каждые N секунд), плюс банальными эвристиками удалила спам. Мне даже не пришлось байесовские фильтры писать, ботнет спамящих настолько туп, что бота можно задетектировать куда проще. Как именно, рассказывать не буду, пусть ботописателям не становится проще. Некоторый спам, конечно, остался, но его количество не мешает следить за главным.
Ну и можно сравнить результат:
нефильтрованные (46K твитов, 10 Mb, 1.2 Mb в архиве)
фильтрованные (10К твитов, 2.2 Mb, 0.4 Mb в архиве)
Во время вдумчивого просмотра нефильтрованных твитов крутилась мысль, что на замену "Лебединого озера" по ТВ в XX веке, пришли баянистые анекдоты в Твиттере XXI века. Информационная криптовойна, чо, выгодно кому угодно: либо одной стороне, чтобы подавить коммуникации митингующих, либо другой стороне, чтобы подставить первую.
Линк на оригинал - http://shipilev.livejournal.com/96700.html
Ну а потом простая программка постпроцессинга удалила дубликаты сообщений (потому что скрипт запрашивал последние 100 твитов каждые N секунд), плюс банальными эвристиками удалила спам. Мне даже не пришлось байесовские фильтры писать, ботнет спамящих настолько туп, что бота можно задетектировать куда проще. Как именно, рассказывать не буду, пусть ботописателям не становится проще. Некоторый спам, конечно, остался, но его количество не мешает следить за главным.
Ну и можно сравнить результат:
нефильтрованные (46K твитов, 10 Mb, 1.2 Mb в архиве)
фильтрованные (10К твитов, 2.2 Mb, 0.4 Mb в архиве)
Во время вдумчивого просмотра нефильтрованных твитов крутилась мысль, что на замену "Лебединого озера" по ТВ в XX веке, пришли баянистые анекдоты в Твиттере XXI века. Информационная криптовойна, чо, выгодно кому угодно: либо одной стороне, чтобы подавить коммуникации митингующих, либо другой стороне, чтобы подставить первую.
Линк на оригинал - http://shipilev.livejournal.com/96700.html
Комментариев нет:
Отправить комментарий