Про целевую аудиторию
С последним апдейтом ввели систему свадеб. После прохождения нескольких квестов можно взять в жены любой корабль 90+ уровня...
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
С последним апдейтом ввели систему свадеб. После прохождения нескольких квестов можно взять в жены любой корабль 90+ уровня...
Re: Оффтоп
Про коллективный труд, скорость и монстра есть прямо две противоречивых тенденции: повышение мощности головы по решению более сложных задач за более долгое время ("класс") и мануфактурная по разделению умственного труда на отдельные операции в разных головах -- но с пониманием того, как это всё будет потом склеиваться ("порядок"). В long term порядок бьёт класс (пример с вебмастером, который заменился дизайнером+верстальщиком+SEO+сисадмином+программистом движка+редактором+контент-менеджером -- это как раз из этой серии). Как всегда в случае двух разнонаправленных сил в каждом конкретном случае есть свой оптимум: некоторые проекты за заданное время нельзя сделать качественно числом человек меньше N ибо проблема скиснет, пока её будут решать, и нельзя сделать качественно числом человек больше M, ибо породят монстра из заплаток на заплатках к решениям друг друга.
4. Мэппинг невозможен в принципе между двумя базами данных, исходящими из разной картины мира. Для того, чтобы не делать ошибок мэппинга, его делают не просто баз друг ко другу, а баз к отдельной RDL. То есть для двух баз есть не один мэппинг, а два мэппинга (каждой из них к RDL). Так что это тоже ситуация предусмотренная постановкой задачи.
Насчёт же "фактов" и "истины", так меня учили, что есть только один вид объективности: это хорошо организованная субъективность. Вот мы такую и попытаемся сделать.
Жаль, что с хакатоном не получается. Ибо мне абсолютно понятно, что "не догоним, зато согреемся". Ну, до 29 марта ещё время есть, может и подтянем ещё кого-нибудь из программистов или модельеров данных, знающих слово "отаку".
Re: Оффтоп
Фиг оно решается. Потому что два слова (написания) в одном контексте идентичны, в другом означают похожие вещи, но разные подклассы, а в третьем - вообще относятся к совершенно разным вещам.
Привести этот бардак к единой структуре практически невозможно.
Re: Оффтоп
Re: Оффтоп
Re: Оффтоп
Предлагаемая технология позволяет за сутки из-под капота САПРа вытянуть довольно сложную структуру данных и стандартным способом визуализовать -- построив все необходимые адапторы при этом. Не понимаю, почему такая технология не позволит сработать с анимешными базами данных. Понятно, что это поможет выловить много ошибок (как при любой конверсии данных), но и не ответит на все вопросы (особенно, когда этих ответов в принципе не существует).
Мы софтинку по мэппингу выпускаем на следующей неделе, и начинаем прикручивать к ней веб-интерфейс. Так что у нас вполне себе подход к "практическому решению" для хакатона, а не подход к рассуждениям о существовании способов. Способы команда в лице её разных людей многие знает уже прямо сейчас, всё таки речь идёт о технологическом bleeding edge. Нужно только сосредоточиться и сделать что-то. Ну, и перед тем как сделать (29 марта) подумать. Время ещё есть.
Софтинка, кстати, в предыдущей версии доступна тут: http://techinvestlab.ru/dot15926Editor (где-нибудь в понедельник-вторник мы надеемся, что там появится следующая версия с развитым мэппингом и верификациями). Так что всё стараемся держать не слишком абстрактным, а поближе к коду.
Re: Оффтоп
Насколько я понимаю, для начала придётся писать парсеры к разным анимешным базам, переводить это в единый формат, потом решать задачи fuzzly loogic (с участием иероглифов), а уже после этого обрабатывать.
Re: Оффтоп
К базам там есть API (хотя и не все объекты базы там доступны по API, может быть и парсить нужно что будет), поэтому задача парсинга там не главная.
Переводить в единый формат -- да, это и есть мэппинг (формат тут не важен, важна "резиновость" схемы данных, что подразумевает отход от реляционной и объект-ориентированной парадигмы).
Если задействовать fuzzy logic или чего-то подобное (hybrid reasoning: совместные статистический и логический вывод), то у нас в планах такого пока не было, но почему бы и нет (например, для попыток автомагического мэппинга, хотя это было бы чересчур круто на данной стадии этих технологий. Или для верификации).
Re: Оффтоп
В этом случае исправления наиболее дёшевы. Если конфликт попал в результирующую структуру, избавится от него на порядок сложнее.
Re: Оффтоп
Re: Оффтоп
Re: Оффтоп
Re: Оффтоп
У меня предложение -- пока просто повторить структуры myanimelist и anidb плюс IMDB (в этих базах существенно разная информация про одно и то же). И даже википедия тут может быть -- но вот её нужно будет парсить, но зато там есть списки эпизодов с кратким содержанием много к чему. А остальное пока не трогать.
Далее дать интерфейс для работы тусовки BigData (то бишь позволить разным людям запускать свои алгоритмы по объединённому и почищенному датасету). И вот тут уже ловить неожиданные аллюзии, кластеризовать и категоризировать и развлекаться всякими иными образами.
Но это нереально всё за один день, нужно аккуратно отщипнуть от этой задачи маленький кусочек.
Re: Оффтоп
Re: Оффтоп
...идеи по тому, откуда и какие борать датасеты (ибо хакатон -- это некоторое развлечение, и вовсе необязательно брать для развлечения инженерные данные):
-- взять наборы данных, для которых заведомо нет ничего "семантиквебового" (например, http://anidb.net с API в http://wiki.anidb.net/w/API где много информации по аниме, но не так много людей и http://myanimelist.net с API в http://myanimelist.net/modules.php?go=api где мало информации по аниме, но много людей плюс есть информация по мангам).
-- онтологии появляются там и тогда, где и когда приходит понимание, что таких источников данных много (например, в wikipedia можно найти информацию по содержанию эпизодов, ещё есть IMDB с технической информацией по формату выпуска, игровые вебсайты с играми, tvtropes.org с использованными тропами и т.д. -- как связать информацию всех этих сайтов?). За основу можно принять какую-то модель предметной области: например, крутую BBC Programmes ontology -- http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml (ну, их таких много).
Парсить википедию нужно, ибо я больше нигде не нашёл информацию по эпизодам. Хотя в некоторых базах есть аниматоры и продюсер для каждого эпизода (там удивительно они меняются: конвейер, я удивился насколько разные команды делают отдельные эпизоды даже в небольших сериалах). То есть можно будет потом находить через алгоритмы deep learning "амплуа" для отдельных аниматоров и продюсеров(если связывать эти имена с темами отдельных эпизодов) -- но это я так, шучу.
Re: Оффтоп
По сути дела, практически у каждой статьи на Википедии есть ссылка на официальную страницу (на японском). Если по-хорошему, то надо идти туда и парсить информацию там. По крайней мере, для тех случаев, когда это не запихнуто картинками во флеш. И опять же, Википедия на японском будет больше похожа на правду, чем английская версия.
Re: Оффтоп
[Сорри, не знаю, как эти ссылки ЖЖ обработает, может чего-нибудь покоцать.]
Re: Оффтоп
Re: Оффтоп
Для наших целей, понятно, достаточно будет взять базу к себе на машину. Датасет, он и есть датасет -- отмэппить и преобразовать в нейтральный по отношению к базе формат, аннотированный схемой данных, породить URI для каждого элемента данных (это и есть "семантика").