Al&BigData Lab в Одессе
Apr. 13th, 2014 02:43 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Вчера был в Одессе на конференции Al&BigData Lab (кстати, обещали выложить видео всех докладов Выложили тут). Было круто, о чем и будет пост.
Начну с места. Проходило это всё в некоем "коворокинговом пространстве" HUB. Такой себе гибрид таймкафе и хостела, заточенный на работу и проведение встреч. Были программисты, были студенты, первых все же больше.

Познакомился с Сергеем Шелпуком из Софтсерва - он рассказывал про Deep Learning. ИМХО, лучший доклад на конференции, я из-за него и поехал, в общем-то (чуть ниже - очень краткое содержание).
Второй доклад, из-за которого я ехал - от Тихона Тарнавского про потоковое распознавание документов, увы, не состоялся. На самом деле, очень жаль.
Кравецкий из Деврейна довольно неплохо рассказал про проблемы информационного поиска (мусор и много времени) и про то, как с этим борются.
Датаартовец Тимашов рассказывал про визуализацию данных.
Я рассчитывал на большее, но краткий обзор библиотек пересказал Оле, она как раз этим занимается сейчас.
Итак, доклад о нейросетях.
В идеале мы подаем на классификатор картинку, а он нам говорит, что на ней изображено. Но классификация сырых пикселей не работает, их надо пожарить.
Поэтому надо выделить и как-то описать какие-то признаки на картинке. Этим занимаются люди из computer vision, а люди из machine learning занимаются собственно классификаторами и обучением.Голубой мечтой последних всегда было, чтобы признаки выделялись классификатором сами, а не были разработаны первыми.
Не так давно были сделаны большие шаги к реализации этой мечты. Для этого мы вначале обучаем автоэнкодер - такую нейросеть, где на входе и выходе одинаковое количество нейронов, а в середине - меньше. Т.е. фактически учимся представлять\восстанавливать изображение меньшим числом данных, чем у нас было. А потом обрезаем выходной слой. Бывший скрытый, а теперь выходной слой и есть нужные нам features, причем уже описанные. Сейчас они установили новый state-of-art практически во всех областях. Справедливости ради, не везде они выигрывают сильно, часто классические HOG\SIFT и им подобные вещи проигрывают очень незначительно, но это только начало.
Именно таким образом гугл сделал нейросеть, которая научилась определять котиков (статья на ICML) - на 1000 серверов за месяц. А чуть позже Стенфордский университет сделал то же самое, но на 16 видеокартах и за неделю.
Еще Сергей рассказывал, как можно бороться с переобучением и другие вещи, но это я пересказывать не буду. Сама data science группа в Софтсерве оказалась меньше, чем я думал - всего 5 человек. Поле еще не занято, так что самое время сюда влазить.
Теперь немного фоток и бытовых вещей.
Внезапно встретил
pushk1n. Как он сказал, кому ж ездить на такие мероприятия, как не СТО?

А вот второй представитель Аварлы - Лёша.

Борода!

В Хабе были не только печеньки, но и конфеты, причем правильные (хотя и в меньшинстве)

А еще нас, приперевшихся в восьмом часу девушка из Хаба, сама еще не успевшая проснуться толком, приветливо напоила кофе. Жаль, нормальной фотографии не осталось, говорю спасибо так :)
Подход к объявлениям тут очень правильный. Да и ко всему, мне лично понравилось больше, чем в Часописе (я в курсе, что это немного разные заведения)

На кухне много записок от Разумной Плесени

На столах стоят пеналы из аудиокассет.

После мероприятия мы пошли прогуляться по городу. Вот кафе ShefCafe.

У него есть плюс и минус. Плюс в том, что оно круглосуточное, после поезда завтракали именно тут. В завтрак тут входит какое-то блюдо типа омлета\колбасок\оладий и напиток. В "завтраке на троих" таковым являлась водка.
Минус кафе - нас нагло пытались надуть - в чеке умножили 47 на два и получили 117. Так что держите ухо востро.
На какой-то их улиц оставили старую брусчатку дли истории.

На исторических зданиях вешают QR-коды со ссылками на Вики.

А возле Потемкинской лестницы собрались местные авто и прочие майдановцы. Вообще людей в украинских флагах в городе было довольно много, российских не замечал.

Начну с места. Проходило это всё в некоем "коворокинговом пространстве" HUB. Такой себе гибрид таймкафе и хостела, заточенный на работу и проведение встреч. Были программисты, были студенты, первых все же больше.

Познакомился с Сергеем Шелпуком из Софтсерва - он рассказывал про Deep Learning. ИМХО, лучший доклад на конференции, я из-за него и поехал, в общем-то (чуть ниже - очень краткое содержание).
Второй доклад, из-за которого я ехал - от Тихона Тарнавского про потоковое распознавание документов, увы, не состоялся. На самом деле, очень жаль.
Кравецкий из Деврейна довольно неплохо рассказал про проблемы информационного поиска (мусор и много времени) и про то, как с этим борются.
Датаартовец Тимашов рассказывал про визуализацию данных.
Я рассчитывал на большее, но краткий обзор библиотек пересказал Оле, она как раз этим занимается сейчас.
Итак, доклад о нейросетях.
В идеале мы подаем на классификатор картинку, а он нам говорит, что на ней изображено. Но классификация сырых пикселей не работает
Поэтому надо выделить и как-то описать какие-то признаки на картинке. Этим занимаются люди из computer vision, а люди из machine learning занимаются собственно классификаторами и обучением.Голубой мечтой последних всегда было, чтобы признаки выделялись классификатором сами, а не были разработаны первыми.
Не так давно были сделаны большие шаги к реализации этой мечты. Для этого мы вначале обучаем автоэнкодер - такую нейросеть, где на входе и выходе одинаковое количество нейронов, а в середине - меньше. Т.е. фактически учимся представлять\восстанавливать изображение меньшим числом данных, чем у нас было. А потом обрезаем выходной слой. Бывший скрытый, а теперь выходной слой и есть нужные нам features, причем уже описанные. Сейчас они установили новый state-of-art практически во всех областях. Справедливости ради, не везде они выигрывают сильно, часто классические HOG\SIFT и им подобные вещи проигрывают очень незначительно, но это только начало.
Именно таким образом гугл сделал нейросеть, которая научилась определять котиков (статья на ICML) - на 1000 серверов за месяц. А чуть позже Стенфордский университет сделал то же самое, но на 16 видеокартах и за неделю.
Еще Сергей рассказывал, как можно бороться с переобучением и другие вещи, но это я пересказывать не буду. Сама data science группа в Софтсерве оказалась меньше, чем я думал - всего 5 человек. Поле еще не занято, так что самое время сюда влазить.
Теперь немного фоток и бытовых вещей.
Внезапно встретил
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)

А вот второй представитель Аварлы - Лёша.

Борода!

В Хабе были не только печеньки, но и конфеты, причем правильные (хотя и в меньшинстве)

А еще нас, приперевшихся в восьмом часу девушка из Хаба, сама еще не успевшая проснуться толком, приветливо напоила кофе. Жаль, нормальной фотографии не осталось, говорю спасибо так :)
Подход к объявлениям тут очень правильный. Да и ко всему, мне лично понравилось больше, чем в Часописе (я в курсе, что это немного разные заведения)

На кухне много записок от Разумной Плесени

На столах стоят пеналы из аудиокассет.

После мероприятия мы пошли прогуляться по городу. Вот кафе ShefCafe.

У него есть плюс и минус. Плюс в том, что оно круглосуточное, после поезда завтракали именно тут. В завтрак тут входит какое-то блюдо типа омлета\колбасок\оладий и напиток. В "завтраке на троих" таковым являлась водка.
Минус кафе - нас нагло пытались надуть - в чеке умножили 47 на два и получили 117. Так что держите ухо востро.
На какой-то их улиц оставили старую брусчатку дли истории.

На исторических зданиях вешают QR-коды со ссылками на Вики.

А возле Потемкинской лестницы собрались местные авто и прочие майдановцы. Вообще людей в украинских флагах в городе было довольно много, российских не замечал.
