yes1111: (порох не ошибись)
[personal profile] yes1111



До виборів залишається 6 днів, і лише 5 днів на політичну агітацію. Агітувати я не умію, зате дуже добре розбираюсь в Новому Курсі Юлії Тимошенко і в її політичному спадку.

Сьогодні я б хотів поговорити про один із аспектів цифрового урядування, який завжди залишається за кадром. За всю майже 12-річну історію розмов і дискусій про необхідність цифровізації держави, вперше він публічно був озвучений тільки 20 березня - на платформі "Цифрова країни", скликаній Юлією Тимошенко. Що, власне саме по собі демонструє, наскільки грунтовно в своїй програмі вона підійшла до аналізу галузі.

Йдеться про так званий "регламентний доступ до даних". На нього майже ніхто не звернув увагу, хоча він був навіть виділений окремим пунктом в підписаному Меморандумі. 

Скажіть будь-ласка, ви коли-небудь думали, звідки беруться оті Big Data, які грають ключову роль в сучасних інформаційних технологіях? Очевидний спосіб - збирати такі дані своїми силами - аж ніяк не доступний середній ІТ-фірмі, а тим паче зовсім молодому стартапу. На це здатні тільки політичні партії (взяти за приклад хоча б масове анкетування, проведене партією "Батьківщина"), або великі корпорації - той же "Фейсбук", або великі медіа-концерни. Навіть науковим організаціям іноді потрібні десятиліття для накопичення таких великих обсягів даних, щоб в них можна було шукати приховані закономірності. Наприклад, дані для медичної експертної системи Caduceus збирали більше десяти років. Зрозуміло, що такі проекти стартап потягти не взмозі.

Однак одним із ключових елементів Індустрії 4.0 є якраз стартапи, які займаються пошуком прихованих залежностей та висновків у велетенських вибірках даних. Це називається Data Mining. Звідки у стартапів достатньо великі вибірки, над якими можна працювати? Ось наприклад, свіженька новина - невеличкий стартап, який складався із колишнього аналітика Нью-Йоркського Управління Поліції Алекса Кохлас-Вуда та Евана Левіна, помічника поліційного комісара Нью-Йорка з аналітики, створили експертну систему Patternizr. Вона проаналізувала величезний потік інформації про поточні злочини, співставила їх за рядом критеріїв, і... сходу розкрила кілька "висяків". Як таке могло статися, всього дві людини...

Відповідь: їм ці дані надала держава. Безкоштовно. Як частину державно-приватного партнерства і початкову інвестицію.

Давайте завітаємо на один цікавий американський сайт, https://www.data.gov/. Він був створений в рамках програми відкритого регламентного доступу до даних, запровадженої американським урядом в 2013 р. Метою цієї програми було впровадження так званого "громадського хакерства" (civic hacking), тобто дозволу громадянам створювати сервіси на основі величезної кількості
даних, які продукують федеральні та місцеві державні установи.

На сьогодні портал data.gov пропонує 236 тисяч (це не описка - дійсно тисяч) різних вибірок даних від кількох сотень державних агенцій по всіх Сполучених Штатах, на всі можливі теми - від результатів перепису населення до статистики злочинів по містах. Кожна вибірка доступна як мінімум в двох варіантах - для скачування та для віддаленого доступа (так легше будувати сервіси, не будуючи базу даних з нуля, а звертаючись вже до існуючої). До кожної створено спеціальний "паспорт вибірки", де перелічено не тільки автора та дату оновлення, а й схему даних - щоб простіше було їх обробляти. Обов'язково також вказуються рівень доступа, пов'язані дані та навіть програмний інтерфейс, якщо такий є.

Така жорстка паспортизація потрібна тому, що вибірки даних там надаються майже в 20 різних форматах. О, безумовно, є сервіси типу Socrata Dev, які надають зручний програмний інтерфейс для більшості критично важливих даних - таких, наприклад, як статистика злочинів. Але іноді необхідно скористатись якимсь маловідомим чи особливим набором, який збережено в особливому форматі. Тут і стає в пригоді "паспорт вибірки".

Маючи "паспорт вибірки", саму цю вибірку і детальну документацію, будь-який стартап може створити сервіс на основі цих даних. Який при цьому має можливість замінити собою котрусь із вже існуючих бюрократичних адмінпослуг. Ось так і виникають чудеса із штучними інтелектами, які розкривають злочини.

Україна з 2015 р. теж має свій проект Open Data. На сьогодні він пропонує всього 8 тисяч різних вибірок даних. Сам сайт https://data.gov.ua/ зовні представляє собою копію американського, але я б швидше назвав це поганою ксерокопією. Тому що по факту паспорти вибірок на них не повні, і часто навіть містять не схеми даних, а просто перелік файлів та дати їх оновлень. Деякі вибірки взагалі представляють собою малозастосовні дампи баз даних. Просто собі уявіть - величезне файлище розміром 2 Гб, при цьому його структура ніде не описана. Хочете писати сервіс - здогадайтесь самі про те, що саме і як там лежить. Інтерфейсу доступа до даних нема від слова взагалі, можна тільки скачати файл, а потім періодично слідкувати за його оновленням. Якось я окремо розпишу свій досвід роботи із українськими "відкритими даними" - дуже повчальна вийде історія.

На сьогодні на базі вибірок, які оприлюднені на українському порталі, створено аж 16 сервісів. Із них більша частина - візуалізації, тобто, переведення вибірки із нечитабельної форми в більш-менш читабельну. Безумовно, це теж важливо, і люди, які хоча б щось намагаються виудити із того звалища даних, яке представляє собою data.gov.ua, є справжніми подвижниками. Але цифрову країну із таким кошмарним рівнем відкритості даних не побудуєш.

Ось вам, наприклад, найпростіший спосіб застосування регламентного доступу до даних. Розглянемо те, що нам найближче: голосування. Перед виборами оприлюднюється паспорт вибірки із точною схемою даних, і незалежні розробники уже можуть писати сервіси на їх базі. В день виборів до сервера ЦВК відкривається регламентний же доступ, в режимі тільки для читання (наприклад, через REST API). Після чого фальсифікація методом "аналізу потоку підрахунку і докиду необхідних голосів" уже стає неможливою - це тут же відстежать незалежні сервіси. Вже не кажучи про те, що підрахунок голосів стане на порядок швидшим.

Що цікаво - так чи інакше питання подібного регламентного доступу, щоб незалежні сервіси могли працювати із державними даними, ставився - на секундочку - з 2015 року. Однак єдиний політик, хто вписав цей пункт в свої зобов'язання - Юлія Тимошенко. А це показничок. Без регламентного доступу до даних ніякої цифрової країни побудувати не вдасться, просто тому, що цифрові сервіси не можна збудувати навколо одиничних прикладів чи там, умоглядних схем. Необхідний постійний і дуже великий потік реальних даних із максимально простим доступом.

Ось і проаналізуйте: у кого в програмі абстрактне "нада внедрьож технологій", а у кого реальні ключові речі.

Таких аспектів в Новому Курсі, насправді, набагато і набагато більше. У нас залишилось всього 4 дні (виключаючи сьогоднішній). В коментах напишіть, що б вам іще хотілось прочитати, і я спробую це висвітлити. А в п'ятницю я підсумую всі свої висновки і напишу великий мега-агітаційний пост. Після чого ми всі підемо і проголосуємо правильно.



Вячеслав Ільченко
Джерело

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

yes1111: (Default)
yes1111

June 2021

M T W T F S S
 123456
7891011 1213
14151617181920
21222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags