vit_r: default (vit_r)
vit_r ([personal profile] vit_r) wrote2014-02-19 08:10 pm

Про целевую аудиторию

С последним апдейтом ввели систему свадеб. После прохождения нескольких квестов можно взять в жены любой корабль 90+ уровня...

[livejournal.com profile] tomoboshi тут о Kantai Collection. Via [livejournal.com profile] sam_newberry

Re: Оффтоп

[identity profile] vit-r.livejournal.com 2014-02-20 07:14 pm (UTC)(link)
"Маленький кусочек" - это только википедия, потому что для неё есть (почти) готовые интерфейсы. Но это не интересно. И, насколько понимаю, вместо парсинга веба для остальных проще попросить исходные базы данных у владельцев или как-то договориться о снятии информации.

Re: Оффтоп

[identity profile] ailev.livejournal.com 2014-02-20 07:26 pm (UTC)(link)
Я приводил много ссылок, и если пройтись по ним, то там я приводил и ссылки на API всех этих баз. Повторю из в http://dot15926.livejournal.com/47671.html

...идеи по тому, откуда и какие борать датасеты (ибо хакатон -- это некоторое развлечение, и вовсе необязательно брать для развлечения инженерные данные):
-- взять наборы данных, для которых заведомо нет ничего "семантиквебового" (например, http://anidb.net с API в http://wiki.anidb.net/w/API где много информации по аниме, но не так много людей и http://myanimelist.net с API в http://myanimelist.net/modules.php?go=api где мало информации по аниме, но много людей плюс есть информация по мангам).
-- онтологии появляются там и тогда, где и когда приходит понимание, что таких источников данных много (например, в wikipedia можно найти информацию по содержанию эпизодов, ещё есть IMDB с технической информацией по формату выпуска, игровые вебсайты с играми, tvtropes.org с использованными тропами и т.д. -- как связать информацию всех этих сайтов?). За основу можно принять какую-то модель предметной области: например, крутую BBC Programmes ontology -- http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml (ну, их таких много).


Парсить википедию нужно, ибо я больше нигде не нашёл информацию по эпизодам. Хотя в некоторых базах есть аниматоры и продюсер для каждого эпизода (там удивительно они меняются: конвейер, я удивился насколько разные команды делают отдельные эпизоды даже в небольших сериалах). То есть можно будет потом находить через алгоритмы deep learning "амплуа" для отдельных аниматоров и продюсеров(если связывать эти имена с темами отдельных эпизодов) -- но это я так, шучу.

Re: Оффтоп

[identity profile] vit-r.livejournal.com 2014-02-20 07:43 pm (UTC)(link)
Я это читал, но API у MyAnimelist выглядит убого, а страница от AniDB просто не открывается. Опыт показывает, что гораздо продуктивнее работать с сырыми базами данных.

По сути дела, практически у каждой статьи на Википедии есть ссылка на официальную страницу (на японском). Если по-хорошему, то надо идти туда и парсить информацию там. По крайней мере, для тех случаев, когда это не запихнуто картинками во флеш. И опять же, Википедия на японском будет больше похожа на правду, чем английская версия.

Re: Оффтоп

[identity profile] ailev.livejournal.com 2014-02-20 07:51 pm (UTC)(link)
Я не понимаю, почему страницы от anidb не открываются. Там сразу на странице аниме в поле resources даются ссылки на разные другие базы (так, для Love Hina http://anidb.net/perl-bin/animedb.pl?show=anime&aid=35# это поле даёт Allcinema (http://www.allcinema.net/prog/show_c.php?num_c=159964), ANN (http://www.animenewsnetwork.com/encyclopedia/anime.php?id=168), ANN(2) (http://www.animenewsnetwork.com/encyclopedia/anime.php?id=5639), Official page (jp) (http://www.tv-tokyo.co.jp/lovehina/), Wiki (en) (http://en.wikipedia.org/wiki/Love_Hina), Wiki (jp) (http://ja.wikipedia.org/wiki/%E3%83%A9%E3%83%96%E3%81%B2%E3%81%AA), AnimeNfo (http://www.animenfo.com/animetitle,242,jqhwyg,a.html), Anison (http://anison.info/data/program/3814.html), MAL (http://myanimelist.net/anime/189), MAL(2) (http://myanimelist.net/anime/963), MAL(3) (http://myanimelist.net/anime/3247), VNDB (http://vndb.org/v1383), VNDB(2) (http://vndb.org/v696) -- и там уже и вики английская, и MAL в количестве, и вики японская, бери чего хочешь откуда хочешь. Конечно, и официальная японская страница "просто вебсайта" там тоже есть. Это всё из одного поля на странице, компактненько.

[Сорри, не знаю, как эти ссылки ЖЖ обработает, может чего-нибудь покоцать.]

Re: Оффтоп

[identity profile] vit-r.livejournal.com 2014-02-20 07:57 pm (UTC)(link)
Не открывается вики с описанием. Впрочем, там базу просто можно взять к себе на машину (http://nzedb.com/index.php?topic=869.0)

Re: Оффтоп

[identity profile] ailev.livejournal.com 2014-02-20 08:06 pm (UTC)(link)
У меня не воспроизводится "не открывается вики" (у меня страницы anidb открываются и в FireFox, и в IE -- а других браузеров на машине нету). У меня этот сайт всегда стабильно открывается, я его привожу обычно в пример на лекциях, открываю прямо в онлайне. Там особо интересно по табам побродить: каждая вкладка внутри страницы открывает новый мир.

Для наших целей, понятно, достаточно будет взять базу к себе на машину. Датасет, он и есть датасет -- отмэппить и преобразовать в нейтральный по отношению к базе формат, аннотированный схемой данных, породить URI для каждого элемента данных (это и есть "семантика").