Про целевую аудиторию
Feb. 19th, 2014 08:10 pmС последним апдейтом ввели систему свадеб. После прохождения нескольких квестов можно взять в жены любой корабль 90+ уровня...
С последним апдейтом ввели систему свадеб. После прохождения нескольких квестов можно взять в жены любой корабль 90+ уровня...
no subject
Date: 2014-02-19 07:21 pm (UTC)Оффтоп
Date: 2014-02-19 08:01 pm (UTC)Программисты-отаку довольно распространены, теперь бы ещё заинтересованных онтологов-отаку найти.
Re: Оффтоп
Date: 2014-02-19 08:30 pm (UTC)2. Недавно в рассылке обсуждали. Японские учёные вокруг манги и аниме практически не замечают работ на английском. Англоязычные (то есть, весь остальной мир) знают только то, что переведено. Плюс дофига есть статей и монографий на других языках, которые не замечают ни одни, ни другие. Чью точку зрения брать как базовую?
3. Официальных баз как бы и нету (если смотреть английский, а не иероглифы), а пиратские препарировать - как-то не солидно.
Плюс не понятна цель. Сделать онтологию ради онтологии? Ну так её использовать будет нельзя, потому что она слишком абстрактная и оторванная от реальных задач получится.
Re: Оффтоп
Date: 2014-02-19 08:59 pm (UTC)2. Это challenge: говорится, что если брать не объект-ориентированное представление и базоданческий принцип closed world, а семантическое (логическое) представление и онтологический принцип open world, то можно представить несколько равноправных базовых "точек зрения". В этом особый шарм и фишка: аддитивность в добавлении нового знания. Хотя, как всегда, на эту тему нужно особо думать.
3. Для тренировки и нашего несолидного хакатона вполне можно попрепарировать эээ... любительские базы.
4. Цель -- интеграция и верификация данных разных любительских баз. Там проблем несколько: volume, velocity, variety. Мы бы целились в variety и понимание того, как сделать общую для нескольких баз данных схему данных предметной области, удобную для мэппинга и позволяющую расти.
Но главная цель этого проекта, конечно, фан в количестве. Год назад на хакатоне было весело, все хорошо оттянулись (вот отчёт того, что было: http://ontolog.cim3.net/forum/ontology-summit/2013-04/msg00038.html). Fun как цель прописан мной в этом году явно: http://ontolog.cim3.net/cgi-bin/wiki.pl?OntologySummit2014_Hackathon (там так и начинается -- the mission of Hackathon is to have fun).
Re: Оффтоп
Date: 2014-02-19 09:49 pm (UTC)Было бы по одному варианту на язык, все были бы счастливы.
Впрочем, как и в реальной документации, даже на одном языке, но написанной на разных столах.
Я не вижу реальной возможности разобраться с такими проблемами в спокойном проекте в тиши кабинета. Коллективный труд на скорость способен породить только монстра.
4. Любительские базы пишутся любителями для удовлетворения своих амбиций. Интерпретация одного и то же бывает такой, что маппинг невозможен в принципе. Это же не факты, а мнения, плюс домыслы.
Re: Оффтоп
Date: 2014-02-20 01:11 pm (UTC)Про коллективный труд, скорость и монстра есть прямо две противоречивых тенденции: повышение мощности головы по решению более сложных задач за более долгое время ("класс") и мануфактурная по разделению умственного труда на отдельные операции в разных головах -- но с пониманием того, как это всё будет потом склеиваться ("порядок"). В long term порядок бьёт класс (пример с вебмастером, который заменился дизайнером+верстальщиком+SEO+сисадмином+программистом движка+редактором+контент-менеджером -- это как раз из этой серии). Как всегда в случае двух разнонаправленных сил в каждом конкретном случае есть свой оптимум: некоторые проекты за заданное время нельзя сделать качественно числом человек меньше N ибо проблема скиснет, пока её будут решать, и нельзя сделать качественно числом человек больше M, ибо породят монстра из заплаток на заплатках к решениям друг друга.
4. Мэппинг невозможен в принципе между двумя базами данных, исходящими из разной картины мира. Для того, чтобы не делать ошибок мэппинга, его делают не просто баз друг ко другу, а баз к отдельной RDL. То есть для двух баз есть не один мэппинг, а два мэппинга (каждой из них к RDL). Так что это тоже ситуация предусмотренная постановкой задачи.
Насчёт же "фактов" и "истины", так меня учили, что есть только один вид объективности: это хорошо организованная субъективность. Вот мы такую и попытаемся сделать.
Жаль, что с хакатоном не получается. Ибо мне абсолютно понятно, что "не догоним, зато согреемся". Ну, до 29 марта ещё время есть, может и подтянем ещё кого-нибудь из программистов или модельеров данных, знающих слово "отаку".
Re: Оффтоп
Date: 2014-02-20 05:14 pm (UTC)Фиг оно решается. Потому что два слова (написания) в одном контексте идентичны, в другом означают похожие вещи, но разные подклассы, а в третьем - вообще относятся к совершенно разным вещам.
Привести этот бардак к единой структуре практически невозможно.
Re: Оффтоп
Date: 2014-02-20 05:28 pm (UTC)Re: Оффтоп
Date: 2014-02-20 05:39 pm (UTC)Re: Оффтоп
Date: 2014-02-20 05:58 pm (UTC)Предлагаемая технология позволяет за сутки из-под капота САПРа вытянуть довольно сложную структуру данных и стандартным способом визуализовать -- построив все необходимые адапторы при этом. Не понимаю, почему такая технология не позволит сработать с анимешными базами данных. Понятно, что это поможет выловить много ошибок (как при любой конверсии данных), но и не ответит на все вопросы (особенно, когда этих ответов в принципе не существует).
Мы софтинку по мэппингу выпускаем на следующей неделе, и начинаем прикручивать к ней веб-интерфейс. Так что у нас вполне себе подход к "практическому решению" для хакатона, а не подход к рассуждениям о существовании способов. Способы команда в лице её разных людей многие знает уже прямо сейчас, всё таки речь идёт о технологическом bleeding edge. Нужно только сосредоточиться и сделать что-то. Ну, и перед тем как сделать (29 марта) подумать. Время ещё есть.
Софтинка, кстати, в предыдущей версии доступна тут: http://techinvestlab.ru/dot15926Editor (где-нибудь в понедельник-вторник мы надеемся, что там появится следующая версия с развитым мэппингом и верификациями). Так что всё стараемся держать не слишком абстрактным, а поближе к коду.
Re: Оффтоп
Date: 2014-02-20 06:37 pm (UTC)Re: Оффтоп
Date: 2014-02-20 06:47 pm (UTC)Насколько я понимаю, для начала придётся писать парсеры к разным анимешным базам, переводить это в единый формат, потом решать задачи fuzzly loogic (с участием иероглифов), а уже после этого обрабатывать.
Re: Оффтоп
Date: 2014-02-20 06:50 pm (UTC)Re: Оффтоп
Date: 2014-02-20 06:56 pm (UTC)К базам там есть API (хотя и не все объекты базы там доступны по API, может быть и парсить нужно что будет), поэтому задача парсинга там не главная.
Переводить в единый формат -- да, это и есть мэппинг (формат тут не важен, важна "резиновость" схемы данных, что подразумевает отход от реляционной и объект-ориентированной парадигмы).
Если задействовать fuzzy logic или чего-то подобное (hybrid reasoning: совместные статистический и логический вывод), то у нас в планах такого пока не было, но почему бы и нет (например, для попыток автомагического мэппинга, хотя это было бы чересчур круто на данной стадии этих технологий. Или для верификации).
Re: Оффтоп
Date: 2014-02-20 07:03 pm (UTC)У меня предложение -- пока просто повторить структуры myanimelist и anidb плюс IMDB (в этих базах существенно разная информация про одно и то же). И даже википедия тут может быть -- но вот её нужно будет парсить, но зато там есть списки эпизодов с кратким содержанием много к чему. А остальное пока не трогать.
Далее дать интерфейс для работы тусовки BigData (то бишь позволить разным людям запускать свои алгоритмы по объединённому и почищенному датасету). И вот тут уже ловить неожиданные аллюзии, кластеризовать и категоризировать и развлекаться всякими иными образами.
Но это нереально всё за один день, нужно аккуратно отщипнуть от этой задачи маленький кусочек.
Re: Оффтоп
Date: 2014-02-20 07:14 pm (UTC)Re: Оффтоп
Date: 2014-02-20 07:26 pm (UTC)...идеи по тому, откуда и какие борать датасеты (ибо хакатон -- это некоторое развлечение, и вовсе необязательно брать для развлечения инженерные данные):
-- взять наборы данных, для которых заведомо нет ничего "семантиквебового" (например, http://anidb.net с API в http://wiki.anidb.net/w/API где много информации по аниме, но не так много людей и http://myanimelist.net с API в http://myanimelist.net/modules.php?go=api где мало информации по аниме, но много людей плюс есть информация по мангам).
-- онтологии появляются там и тогда, где и когда приходит понимание, что таких источников данных много (например, в wikipedia можно найти информацию по содержанию эпизодов, ещё есть IMDB с технической информацией по формату выпуска, игровые вебсайты с играми, tvtropes.org с использованными тропами и т.д. -- как связать информацию всех этих сайтов?). За основу можно принять какую-то модель предметной области: например, крутую BBC Programmes ontology -- http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml (ну, их таких много).
Парсить википедию нужно, ибо я больше нигде не нашёл информацию по эпизодам. Хотя в некоторых базах есть аниматоры и продюсер для каждого эпизода (там удивительно они меняются: конвейер, я удивился насколько разные команды делают отдельные эпизоды даже в небольших сериалах). То есть можно будет потом находить через алгоритмы deep learning "амплуа" для отдельных аниматоров и продюсеров(если связывать эти имена с темами отдельных эпизодов) -- но это я так, шучу.
Re: Оффтоп
Date: 2014-02-20 07:43 pm (UTC)По сути дела, практически у каждой статьи на Википедии есть ссылка на официальную страницу (на японском). Если по-хорошему, то надо идти туда и парсить информацию там. По крайней мере, для тех случаев, когда это не запихнуто картинками во флеш. И опять же, Википедия на японском будет больше похожа на правду, чем английская версия.
Re: Оффтоп
Date: 2014-02-20 07:51 pm (UTC)[Сорри, не знаю, как эти ссылки ЖЖ обработает, может чего-нибудь покоцать.]
Re: Оффтоп
Date: 2014-02-20 07:57 pm (UTC)Re: Оффтоп
Date: 2014-02-20 08:06 pm (UTC)Для наших целей, понятно, достаточно будет взять базу к себе на машину. Датасет, он и есть датасет -- отмэппить и преобразовать в нейтральный по отношению к базе формат, аннотированный схемой данных, породить URI для каждого элемента данных (это и есть "семантика").
Re: Оффтоп
Date: 2014-02-20 08:47 pm (UTC)В этом случае исправления наиболее дёшевы. Если конфликт попал в результирующую структуру, избавится от него на порядок сложнее.
Re: Оффтоп
Date: 2014-02-20 08:48 pm (UTC)