Я приводил много ссылок, и если пройтись по ним, то там я приводил и ссылки на API всех этих баз. Повторю из в http://dot15926.livejournal.com/47671.html
...идеи по тому, откуда и какие борать датасеты (ибо хакатон -- это некоторое развлечение, и вовсе необязательно брать для развлечения инженерные данные): -- взять наборы данных, для которых заведомо нет ничего "семантиквебового" (например, http://anidb.net с API в http://wiki.anidb.net/w/API где много информации по аниме, но не так много людей и http://myanimelist.net с API в http://myanimelist.net/modules.php?go=api где мало информации по аниме, но много людей плюс есть информация по мангам). -- онтологии появляются там и тогда, где и когда приходит понимание, что таких источников данных много (например, в wikipedia можно найти информацию по содержанию эпизодов, ещё есть IMDB с технической информацией по формату выпуска, игровые вебсайты с играми, tvtropes.org с использованными тропами и т.д. -- как связать информацию всех этих сайтов?). За основу можно принять какую-то модель предметной области: например, крутую BBC Programmes ontology -- http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml (ну, их таких много).
Парсить википедию нужно, ибо я больше нигде не нашёл информацию по эпизодам. Хотя в некоторых базах есть аниматоры и продюсер для каждого эпизода (там удивительно они меняются: конвейер, я удивился насколько разные команды делают отдельные эпизоды даже в небольших сериалах). То есть можно будет потом находить через алгоритмы deep learning "амплуа" для отдельных аниматоров и продюсеров(если связывать эти имена с темами отдельных эпизодов) -- но это я так, шучу.
Re: Оффтоп
...идеи по тому, откуда и какие борать датасеты (ибо хакатон -- это некоторое развлечение, и вовсе необязательно брать для развлечения инженерные данные):
-- взять наборы данных, для которых заведомо нет ничего "семантиквебового" (например, http://anidb.net с API в http://wiki.anidb.net/w/API где много информации по аниме, но не так много людей и http://myanimelist.net с API в http://myanimelist.net/modules.php?go=api где мало информации по аниме, но много людей плюс есть информация по мангам).
-- онтологии появляются там и тогда, где и когда приходит понимание, что таких источников данных много (например, в wikipedia можно найти информацию по содержанию эпизодов, ещё есть IMDB с технической информацией по формату выпуска, игровые вебсайты с играми, tvtropes.org с использованными тропами и т.д. -- как связать информацию всех этих сайтов?). За основу можно принять какую-то модель предметной области: например, крутую BBC Programmes ontology -- http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml (ну, их таких много).
Парсить википедию нужно, ибо я больше нигде не нашёл информацию по эпизодам. Хотя в некоторых базах есть аниматоры и продюсер для каждого эпизода (там удивительно они меняются: конвейер, я удивился насколько разные команды делают отдельные эпизоды даже в небольших сериалах). То есть можно будет потом находить через алгоритмы deep learning "амплуа" для отдельных аниматоров и продюсеров(если связывать эти имена с темами отдельных эпизодов) -- но это я так, шучу.