vit_r: default (vit_r)
[personal profile] vit_r

Майданы майданами но пора возвращаться к нашим баранам

По поводу темы хакатона по онтологии аниме и манги поднятой [livejournal.com profile] ailev тут стоит, наверно, вспомнить про извлечение данных из различных помоек, которыми по сути являются самодельные базы и внутренние корпоративные системы.

Прежде, чем строить умные диаграммы и рисовать связи, я, обычно, собираю большую кучу "досье" на все переменные согласно Kimball «Data Warehouse Toolkit». (То есть, каждое поле во всех базах, источниках информации и интерфейсах анализируется и описывается.) Делаю это просто во FreeMind (0.9, так как новая версия мне не понравилась), а потом тасую и раскидываю по целевым схемам. После чего уже начинаю играться с красивыми тулами и говорить умные слова.

Под катом переработанный под разбор анимешных баз темплейт. Вдруг у кого будут замечания или предложения. Объяснений что зачем в DWH не будет, так как это половину книжки цитировать придётся. Вопрос только о хакатоне.

DWH Variable (в данном случае Anime Information Variable)

  • Abbrev
    Как показала практика, короткие сокращения полезны. Особенно на картинках. Обычно можно взять имя или обозначение из исходной системы. Если они не очень уродские.
  • Description
    Имя ни о чём не говорит, так что обязательно надо написать, что понял во время анализа.
  • Name
    В отличие от сокращения имя может быть настолько длинным, насколько нужно. Чаще всего, нужно.
  • Semantics
    Для DWH это "Table"
    • Fact
      Для DWH дальше идёт описания числовых и нечисловых фактов. Для целей семантики тут, наверно, надо брать варианты Relation и Quantity. То есть, всякие служебные вещи, не интересные для семантики, но полезные для обработки исходных систем: прямые и текствовые ссылки, счётные вещи и внутренние идентификаторы.
      • pro
        Тут идут замечания, почему это именно факт.
      • contra
        И почему это может быть не так. (На начальном этапе перекидывать из категории в категорию приходится достаточно часто.)
      • (Дальше идут заморочки для DWH, которые тут не интересны)
      • type
        В данном случае можно ограничиться просто text/number/link. Можно расширять и углублять. Главное, чтобы было обозримо и удобно.
    • Dimension
      Принадлежность к Dimension Table для DWH. В данном случае просто поле в базе данных или элемент в записи, который несёт семантическое значение. На первом этапе пофиг, если набраны "Имя персонажа", "Имя главного героя", "Имя антогониста" и т.д. Главное - описать то, что можно найти в источнике. Всё структурирование, построение иерархий и отбраковка мусора начинаются на втором этапе.
      • pro
      • contra
      • Hierarchical
        В принципе, это опять DWH, но может оказаться полезным.
        • no
        • yes
          • parent
          • child
      • changes
        Этот блок сейчас не интересен.
    • Degenerate Dimension
      Опять DWH. В задаче хакатона будет соответствовать всяким ID баз данных, адресам сайтов и т.п.
      • pro
      • contra
  • Documentation
    UML модели, документы и пр. Этот пункт можно опустить. Всё равно у анимешных баз документация странная.
  • Source
    Откуда и как вытаскиваем
    • system
    • by who
    • how
      Тут всё возможное. От прикидок и теорий до regexp и SQL. Полезно оставлять все варианты, даже явно странные. Потом будет сделано что-то правильное. Тут же только предположеня о том, как вынуть значения.
  • Sample values
    Разнообразные примеры. От простейших до явных ошибок, которых в реальных системах попадается дофига. Естественно, не "побольше - побольше", а чтобы можно было обсуждать, не влезая в дебри исходных систем.
    • Content
    • Source
      Когда мы придём к власти, за незаполнение этого поля виновные будут получать канделябром. Иначе дофига времени убивается, если в анализе нужны уточнения, и не понятно, откуда взялись примеры и нет ли в них ошибок.
    • Comment
  • used in
    Это про то, зачем и как переменную в исходной системе используют. В данном контексте тоже не интересно.
    • systems
    • interfaces
    • и так далее

В принципе, я сначала заполняю такие описания на каждую переменную, потом начинаю думать, а уже потом трясти пальму. (У учёных принято наоборот, так что не знаю, насколько такой метод подойдёт для хакатона.)
(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

If you are unable to use this captcha for any reason, please contact us by email at support@dreamwidth.org

Profile

vit_r: default (Default)
vit_r

February 2026

S M T W T F S
12 34 567
891011121314
15161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 9th, 2026 06:40 pm
Powered by Dreamwidth Studios