Представьте себе пустыню. Потрескавшаяся почва и окружающий пейзаж говорят о существенной нехватке в Тот факт, что некоторые животные ориентируются по магнитным полям Земли, широко известен. Но если ва За долгую эпоху существования денег им всегда старались придать внушительный вид. На деньгах изображ По заказу американских военных идет разработка небольшого робота, способного перепрыгивать через заборы и даже небольшие деревья и дома. Платье — это нечто большее, нежели маскарадный костюм. В новой одежде человек становится иным, хотя Так, недавно в полузаброшенном поселке Санино Суздальского района Владимирской области при возрожден Моя Родина - другая планета, и находиться она за пределами солнечной системы. Почему я существую на Канадским химикам удалось выяснить, почему сухое вино в картонных пакетах не удовлетворяет изысканны В книгах о здоровой, но зачастую невкусной пище, пугает один термин - порция. Какого же она, порция Известны сезонные депрессии, связанные с наступлением зимы. Отсутствие солнца, короткие дни действую Опрос двух тысяч взрослых американцев показал, что существует прямая зависимость между состоянием зд Финансовый алгоритм, разработанный фирмой Final, приносит более 100 миллионов долларов прибыли в год Является ли тот факт, что нумерация рядов кресел перескакивает с 12 на 14 простым совпадением? Конеч Это зависит от числа сущности того или иного едока. Сообразуясь с ним, мы, помимо гастрономических н
 


И Артур, и Лена сначала были вегетарианцами, а потом стали веганами...

Далее


Что делать, если вы можете спокойно передвигаться только пешком, а любой другой способ передвижения вызывает приступ морской болезни? Можно обзавестись прочной обувью и навсегда забыть о запахе моря и...

Далее


Столетняя война, в которой шла борьба за власть во Франции между собственно французскими и английскими династией, продолжалась 116 лет. Именно в этот период во Франции появилась некая Жанна, приведшая...

Далее


В истории человечества любое прорывное развитие государства, всегда начиналось с формулировки эффективной национальной идеи, которая определяла цели, стратегию и тактику такого развития. Всегда в нача...

Далее


Новое исследование, изданное в Геологическом журнале по поводу раскопок в Шропшире, Северо-западная Европа, в которых ученые обнаружили кости мамонтов, позволяет предположить, что некоторые из них был...

Далее


Кудрявая петрушка, ароматный укроп, перышки зеленого лука – все это превратит в кулинарный шедевр даже самое обычное блюдо. К тому же свежая зелень – замечательный источник витаминов и микроэлементов....

Далее





В работе поисковых систем в интернете и борьбе со спамом появятся новые методы, основанные на математическом моделировании. Так считают итальянские ученые, которые, исследовав две существующих социальных сети, затем смоделировали свою собственную.

Борьба со спамом


В работе поисковых систем в интернете и борьбе со спамом появятся новые методы, основанные на математическом моделировании. Так считают итальянские ученые, которые, исследовав две существующих социальных сети, затем смоделировали свою собственную.

Развитие интернета в последние годы привело к существенным изменениям в способах общения между людьми. Еще 10–15 лет назад пообщаться с человеком можно было или при личной встрече, или по стационарному телефону, или же воспользоваться почтой, отправив письмо или телеграмму. Сейчас же к этим вариантам общения добавились мобильные телефоны и интернет, включающий в себя массу способов поговорить с человеком – это и электронная почта, и icq, и многочисленные чаты, и собственные блоги.

Характерным явлением в свете развития всемирной паутины стали так называемые социальные сети – сайты с большим числом пользователей, которые сами наполняют содержимое ресурса. Примеры подобных сетей хорошо известны – в России это «ВКонтакте» и «Одноклассники», а в США – Facebook.
Вышеперечисленные сети ассоциируются в первую очередь со знакомствами и «общением ради общения». Но есть в интернете и тематические социальные сети, направленные на обмен зачастую конкретной информацией, например, LiveJournal (где каждый пользователь может вести свой блог, размещая там фотографии, аудио- и видеозаписи, ставить теги (ключевые слова), давать свои комментарии) или, к примеру, last.fm (где пользователи объединяются по музыкальным интересам).

Классификация информации, которая производится самими пользователями путем применения тегов, уже даже получила вполне научный термин – фолксономия. Это слово образовано из двух: английского folk (народ) и греческого понятия taxonomia (иерархически выстроенная система целей и результатов от простой к сложной).

Авторы работы, опубликованной во вторник в Proceedings of the National Academy of Sciences, с математической точки зрения изучили две социальные сети и смоделировали свою сеть.

В компьютерной лингвистике существует эмпирический закон Хипса, который связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ. В общей форме этот закон выглядит так: v(n)=Knb, где v – это объем словаря уникальных слов, составленный из текста, который состоит из n уникальных слов, а K и b – обусловленные эмпирически параметры. Для европейских языков K принимает значение от 10 до 100, а b – от 0,4 до 0,6.

Помимо закона Хипса большие тексты подчиняются закону Зипфа, который звучит следующим образом: если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, а затем отранжировать эти слова в порядке убывания частоты их встречаемости в тексте, то для любого слова произведение его ранга r и частоты встречаемости f будет константой.

Авторы работы, проводимой под руководством итальянца Чиро Каттуто, определили пост пользователя в сети как функцию трех аргументов: U – идентификатора пользователя, R – идентификатора ресурса (проще говоря, URL) и набора тегов T (T1, T2, T3, …), используемых пользователем.

Для исследования реальных сетей авторы выбрали два сайта. Одним из них стал обширный ресурс del.icio.us, который бесплатно дает зарегистрированным пользователям услугу хранения и публикации закладок на страницах интернета, и посетители могут просматривать имеющиеся закладки, упорядочивая их по популярности и тегам. С этого сайта для работы было использовано около 5 млн постов, написанных более 0,5 млн пользователей. В общей сложности отобранные для исследования посты содержали около 2 млн разных ссылок и 2,5 млн тегов.

Другой сайт, который использовался в работе, – BibSonomy – содержит в себе гораздо меньше информации, чем del.icio.us, поскольку в нем пользователи сохраняют библиографические ссылки. В исследованиях использовались посты 1400 пользователей, которые содержали в себе чуть более 125 тыс. ссылок, чуть менее 38 тыс. уникальных тегов и около 0,5 млн тегов в общем.

Используя данные, авторы применили к указанным ресурсам законы Хипса и Зипфа, а также построили ряд соотношений между различными величинами, определенными в ходе исследований для конкретных ресурсов.После этого авторы работы предположили, что социальную сеть можно представить как семантическую сеть – в виде графа, вершины которого представляют собой теги, а ребра являются ссылками. Методом случайных блужданий (когда каждая точка пробного опыта берется совершенно случайным образом) Каттуто и коллеги построили абстрактную модель социальной сети. Для получившегося объекта они построили такие же соотношения, что и для двух реальных сетей, и получили хорошо согласующиеся результаты.

В работе поисковых систем в интернете и борьбе со спамом появятся новые методы, основанные на математическом моделировании. Так считают итальянские ученые, которые, исследовав две существующих социальных сети, затем смоделировали свою собственную.

Hosted by uCoz