ibash.org.ru - Новый цитатник Рунета

Форум: Проэкт "Моника" 1 2 3 > [RSS]

Форум: Вход Регистрация Участники Поиск RSS

Malefic
26.01.2010 - 12:35

Амбиционизм в чистом виде

Asterozoa
#51 - 28.01.2010 - 00:24

Вот с о и у проблемы, но зато на аудио заметно, опять же проще, когда две системы будут поддерживать друг-друга, а не стараться каждая работать по максимуму и выдавать средний результат

Циник
#52 - 28.01.2010 - 00:36

@Asterozoa,
О и У? а У и Ю?;) Таких неразличимых для видео звуков, слогов, слов - вагон и маленькая тележка.
Идея использовать камеру для как детектор того, надо ли слушать, конечно, интресна, но плоха, т.к. пользователь не сможет отдать команду голосом стоя спиной к камере, а это серьёзное неудобство.
Ещё раз прочитай мои слова насчёт "придумаю ещё две проблемы". Подумай. Если не поможет, то попробуй сделать описываемую тобой систему - это должно помочь)

Asterozoa
#53 - 28.01.2010 - 00:41

Спиной к камерам расставленным по периметру дома, хотя ты прав, наверное я просто прикручиваю мягкое кресло к вашему велосипеду, но для себя попробую потом:) камеры нет под рукой:-(

Asterozoa
#54 - 28.01.2010 - 00:41

Ой, не дома, а комнаты

Asterozoa
#55 - 28.01.2010 - 00:45

Просто думал так- если человек может звук преобразовывать в понятный текст. Значит и машина может, что уже доказано... Но люди и по губам читать умеют- просто это в разы сложнее, значит и техническая реализация тоже возможна, в любом случае эти неразличимые для видео звуки будут со словарями сравниваться. Конечно тут погрешности будут намного сильнее, но в теории это осуществимо

Asterozoa
#56 - 28.01.2010 - 00:45

Хотя для вашей темы ни к чему

RoadRunnеr
#57 - 28.01.2010 - 10:24

#50
Астер, проблема "а" и "о" гораздо сложнее! Человек может говорить, вообще почти не раскрывая губ (вспомните "чревовещателей"). Опять же, различимость звука зависит от громкости - при тихой речи "п" и "ф" будут различимы слабо, человек их различает лишь благодаря своему ассоциативному мозгу: подставляет тот "звук", который подходит по смыслу, а не который звучал на самом деле.

Комп же "думает" по другому. Для распознавания речи (любой, а не просто сравнения с шаблонами) требуется очень много усилий. Япошки этим занимаются _десятилетия_, чтобы их роботы понимали _речь_.

Подход же при реализации типовых движков очень прост: оператор записывает (возможно, несколько раз для получения чего-то усредненного или для контроля, как с вводом нового пароля) команду, затем ее произносит. Если сверка полученного аудиоснимка с определенной точностью удовлетворительна, считается, что это именно та команда, которая была записана. Т.е., принципиально напоминает назначение сочетаний клавиш.

RoadRunnеr
#58 - 28.01.2010 - 10:27

К чему я про закрытый рот - камера здесь не поможет. Более того, чтобы "видеть" губы человека, камеры нужно натыкать _везде_ - на полу, на потолке, даже на одежде! Входишь ты в комнату, руки заняты, подбородком держишь пакет/коробку/что-то еще, и даешь команду монике включить свет. Самое, в данном случае, уместное использование голосового управления! И что? Поскольку лицо наклонено, зажимая пакет, система не увидит губ, да еще и в инфракрасном свете, поэтому на команду не отзовется. И для чего тогда такая система?

RoadRunnеr
#59 - 28.01.2010 - 10:32

И еще. Насколько я понимаю, Максу нужна либа для "голосового управления", а не для "распознавания речи", поскольку между этими понятиями колоссальная разница. Первое можно сделать даже в одиночку, второе - задача многих десятилетий, задействующая усилия физиков, филологов, микроэлектроников, математиков и пр.

Кстати, в телефонах есть голосовое управление, которое я, в свое время, использовал. Штука, в основном, точная, но раздражало, когда на морозе с занятыми руками говоришь в гарнитуру кодовое слово, а телефон не понимает. И, как дурак, одно и то же слово десять раз повторяешь... Причем, с паузами на инициализацию голосового управления.

Аsterozoa
#60 - 28.01.2010 - 10:45

Я морская звезда патрик, мне всеравно буду делать

Циник
#61 - 28.01.2010 - 11:05

#59
Вот и о том же. Насколько я понимаю, для начала надо написать нечто, позволяющее задавать список команд и привязывать их к действиям. Типа пришёл домой, комп и микрофон включены, сказал: "Соседи, вешайтесь подонки!" и демон услыхал это и врубил какое-нибудь мясо на полную громкость. Штука относительно простая, полезная, прикольная, домохозяйкам думаю понравится. Типа ты компу "Ютуб!" а он тебе сразу бразверь открывает с ютубом. Клёво же.

Asterozoa
#62 - 28.01.2010 - 17:15

Ребята, идите на север, вам пытаешься объяснить что квадрат квадратный, вы с пеной у рта доказываете, что у сферы вершин не имеется

White5178
#63 - 28.01.2010 - 17:21

а север те чем не угодил?!

Asterozoa
#64 - 28.01.2010 - 17:23

Это фигурально, не буду же я в высокоинтеллектуальной беседе писать хуй

RoadRunnеr
#65 - 28.01.2010 - 17:36

Астер, это тебе пытаются объяснить, что утыкать камерами дом невозможно; что камеры только усложнят систему, при этом точность распознавания упадет до нуля, поскольку практически никогда рот не будет повернут к камере так, чтобы его было видно полностью, без проекционных искажений; кроме того, дикция никогда не будет образцовой и одинаковой. Т.е., твоя концепция для сферической системы в вакууме пройдет, а для реальной, представляющей хоть какую-то пользу на практике, - нет.

З.Ы. Привет с севера. Не злись. Никто не хотел тебя уязвить или оскорбить.

Asterozoa
#66 - 28.01.2010 - 17:56

Ребят, извиняюсь, прост с утра в душу насрали. Я имел в виду, что даже не заикался о распознавании текста с изображения, просто сделать систему триггеров, потом пока с Циником спорили, уже дошло, что сейчас это а)не нужно, б)неосуществимо. Но все подобные системы зарождались задолго до практической реализации, просто не хватало элементной базы или терпения

RoadRunnеr
#67 - 28.01.2010 - 18:11

Кстати, ты в курсе, что у япошек (в частности, в компании "хонда") разработали мыслеинтерфейс к роботу асимо? Правда, пока только на уровне примитивных команд - поднять руку, ногу...

Asterozoa
#68 - 28.01.2010 - 18:32

Да, слышал, стараюсь не пропускать новости. Просто раз уж сделаны первые шаги в виде распознавания текста с графики, и тем более понимания жестов, хотя уже есть роботы понимающие человеческую речь на уровне вашей моники, значит техника будет развиваться, и не факт, что толчком к дальнейшему развитию не станет ваша работа, или что умельцы нашего уровня потом не станут разрабатывать такие системы, все равно все начинается со сферических проектов

Циник
#69 - 28.01.2010 - 20:28

>все равно все начинается со сферических проектов
Asterozoa, как правило, всё начинается с чёткой и понятной идеи и плана что, когда, для чего и в какие сроки делать. Сферические же проекты, как правило, не выходят за границы вакуума.
Как человек, сталкивавшийся с задачей распознавания человеческих лиц, могу сказать, что написать программу, которая бы на статической картинке могла отличить положение губ при О от положения губ при И - это совсем нетривиальная задача. Это скорее всего, будет какая-нибудь весьма хитрая нейросеть и для быстрой работы требовать она будет далеко не "еле живую машину без монитора" как хотел Malefic.

Asterozoa
#70 - 28.01.2010 - 21:06

Выше читай, про элементную базу, да и четкая идея не сразу появляется, или ты такой гений, что бац! И в голове все до мелочей отработал

RoadRunnеr
#71 - 29.01.2010 - 09:43

Циник, а с какими задачами тебе еще приходилось сталкиваться? На чем писал реализацию? Алгоритм решения был твой или коллективный?
З.Ы. Эх, бывают же программисты... Стыдно даже себя причислять к этой категории...

Циник
#72 - 29.01.2010 - 10:01

@RoadRunnеr,
я не писал, я только использовал готовое. Дак вот это самое готовое, приличного качества и за деньги не так то просто найти. Для детекта лица можно использовать сишную либу openCV, но качество детекта оставляет желать много лучшего. Хотя за бесплатно - потянет.
Коллега писал прогу на сях, котороя бы находила на видео голову отслеживала её позицию, т.е. перемещение, повороты, наклоны. И написание этой проги было делом долгим и трудным + проц жрёт + слетает про чуть резких движениях или сильном наклоне/повороте головы.

RoadRunnеr
#73 - 29.01.2010 - 16:09

Интересно, что за железо стоит в роботах - ведь объем у них небольшой, серверную стойку не впихнешь, а последние асимо распознают лица и речь.

Циник
#74 - 29.01.2010 - 16:17

@RoadRunnеr,
Ну сервернрую стойку и не надо, хватит и пары Core i9 + Radeon HD 5890 ))
Собственно весь вопрос в качестве распознования. Если Асимо просто детектит лица - то это не так уж сложно и больших ресурсов не требует. А вот если он способен детектить и различать части лица и мелкую мимику, то снимаю шляпу перед японскими инженерами. Про речь собственно тот же вопрос.

RoadRunnеr
#75 - 29.01.2010 - 16:37

Здесь общая статья: http://popularrobotics.com/asimo_ai.htm
Здесь - оная от Хонды: http://world.honda.com/ASIMO/technology/intelligence.html

Судя по спецификации, асимо очень крут! Распознает около 10 лиц... Ясное дело, что под распознаванием понимается именно оно - т.е., независимо от мимики лица, возможно, независимо от угла (в определенных пределах), под которым "лицо" смотрит на асимо, в т.ч., и при движении, как написано ниже:
===================
ASIMO has the ability to recognize faces, even when ASIMO or the human being is moving.

For example, ASIMO can:
: recognize the faces of people which have been pre-registered, addressing them by name, communicating messages to them, and guiding them;
: recognize approximately ten different people.

RoadRunnеr
#76 - 29.01.2010 - 16:38

Однако, тут стоит помнить, что "асимой" занимаются японцы; на его развитие выделено немеряно денег, а само развитие длится не один уже год (или десяток лет)...

RoadRunnеr
#77 - 29.01.2010 - 16:42

Короче, к сожалению, реально "фейсконтроль" к "умному дому" не приделать... Остается только распознавание речи, но и тут работы - огромный, хотя и початый, край...

Циник
#78 - 29.01.2010 - 16:57

ну как я понял, Asimo умеет детектить лицо. Сложность этой задачи определяется углами и условиями освещения. Так же умеет сравнивать лицо с имеющимся в базе, следовательно, может выделять контуры лица. Это уже сложнее, но я не думаю, что там это реализовано уж совсем круто.
Ну и насчёт умного дома. Всё-таки задача стоит не распозносать речь, а распозновать команды, что многократно проще и вполне посилам местному населению.

Граммар Наци
#79 - 30.01.2010 - 04:06

Негодуе

Malefic
#80 - 30.01.2010 - 22:55

Уоу! Люди! Ну вы чо, правда! Какое видео? Какое распознавание образов?! Не делайте из мухи слона! Asterozoa, твое предложение усложняет задачу раз в 100 как минимум! И я не шучу =)
Циник, Достаточно интересно посмотреть на план ) Хотя я лишь высказал свою мысль (не новую, да) на форуме, ооочень не факит что я осилю это. Хотя учиться - да, есть желание.

ЗЫ Хотите обсуждать роботов - плиз создайте бругой топик, будьте людями!

А кому интересна реализация задачи в том виде, в котором она обсуждалась до идей Asterozoa (не в обиду, это и правда сложно слишком) - милости просим!

Iwan
#81 - 31.01.2010 - 01:46

Вообще то у проекта Моника должна быть только одна грамотно реализованная функция... ;) Про нее еще Билли Клинтон рассказывал... Держа одну руку на библии, а другую на конституции США.

Грем
#82 - 31.01.2010 - 16:27

фигли проблематичного?
берем АTmеgа128, затем какой то чип, с возможностью записи на него слов/предложений, и научиться распознавать слова, потом, в будущем, добавить еепром, либо ммс карту, для хранения большего кол-ва слов, с помощью реле рулить светом, еtс. А компьютер зачем? может кластер соберете?

Asterozoa
#83 - 31.01.2010 - 17:30

Логитековские веб-камеры. Имеют встроенную поддержку распознавания лица- положение, мимика, там даже реализованы такие фишки, как замена изображения вашего лица изображением кошки, и кошка будет улыбаться и щуриться, да даже головой вертеть не сильно прямо как вы, причем для этого не нужна аппаратная мощность кластера

Grigfather
#84 - 31.01.2010 - 17:33

На компе удобнее и хранить, и распознавать слова, а АTmеgа128 пусть светом рулит, делает сендвичи, поливает кактусы, etc.

Грем
#85 - 31.01.2010 - 18:01

тогда нафиг 128я, возьмем АTmеgа16+RS232.
можно ещё датчик температуры и сервой окно открывать, если жарко :D

Циник
#86 - 01.02.2010 - 14:54

@Malefic, вот как я всё это вижу:
Конечная цель - создать систему голосового управления. Платформа(изначально, чтобы не плодить проблем с железом) - PC(х86). ОС - Linux like.
Идеология развития:
- сначала опытный образец, работающей в тепличных условиях, оценка собственны сил
- улучшения, позволяющие пользоваться системой обычному юзеру в обычных условиях
- публикация, пиар
- расширение функционала, повышение качества
- интеграция с другими системами, привлечение новых разработчиков, дальнейшее развитите

Теперь подробней:

Нулевой этап: обсуждение идеи, алгоритмов и проч:
Т.к. PC, то идея состояит в написании библиотеки/программы, которая могла бы захватить звуковой поток с микрофона и сравнить его с одим из шаблонов, в случае совпадения, выполнить соответствующее шаблону действие. Определяются необходимые алгоритмы, технологии, специалисты. Т.е. как будем слушать, как будем сравнивать сигналы, в каком формате будем хранить команды-шаблоны и проч.

Первый этап: Опытный образей, работающий в тепличных условиях:
Например, создаём файл reboot.mp3 в котором записано произнесение слова reboot. В конфиге проги создаём правило, что если услышили содержимое файла reboot.mp3, то shoutdown -r now. Проверяем что всё работает хорошо и стабильно, оцениваем собственные силы.

Второй этап: Just for Fun:
Серьёзные улучшения, направленные на повышение качества работы. Борьба с шумами, выделение полезного сигнала, предотвращение ложных срабатываний(очень много статистики). Учим программу выделять слова, чтобы сказав "берегут" мы не получили ребут. Так же потребуется изрядное количество знаний по физике, чтобы определять слово сказанное разными людьми. Тут ещё очень бы пригодился человек, имеющий опыт работы со звуком, в идеале, профессиональный звукооператор. Написания некоего интерфейса, позволяющего пользователю создавать и редактировать свои команды. Выпуск версии с базовым набором команд, лёгкий пиар(на совсем уж тематических ресурсах). Целевая аудитория - админы и энтузиасты. Им, имхо, будет интересно поиграться с такой штуковиной.
Результатом этого этапа станет понимание того, стоит ли двигаться дальше. В лучшем случае проект получит известность в узких кругах и несколько новых разработчиков.

Третий этап: Улучшение и Продвижение:
Улучшение пользовательского интерфейса, процедур обработки, расширение базового набора команд за счёт востребованных рядовым юзером. Например, чтоб "из коробки" по команде "ютуб" открывался дефолтный бразверь с ютубом. Множественные баг-фиксы, оптимизация, рефакторинг, документация(!!!). Выпуск версии, пиар( ЛОР, хабр, ролики на ютубе). Попытка договориться с убунтовцами и включить это в их репы, им это должно быть интересно. Результатом этого этапа должен стать продукт, который "из каробки" позволит юзеру управлять своим компом и программами, облегчит пользователю работу/знакомство с PC и Linux, принесёт много фана.

При этом заметьте, что целью проекта не является как таковое распознование речи, только распознование команд. Это гораздо проще, так что у проекта есть шансы дойти до релиза. Т.к. Linux - то проект можно будет портировать и на другие платформы(ARM) и устройства, так что он может стать вполне востребованным на смартфонах и недобуках(хотя можь там уже есть проприетарные аналоги).

Malefic
#87 - 01.02.2010 - 19:10

Полностью соласен. Только где-то там внутри еще должно быть что-то типа "системное программирование", "внешнее устройство" и тд, потому что еще нада этой фигней светом (для начала) управлять, а не софтом

Циник
#88 - 01.02.2010 - 19:38

А я как раз предлагаю начать с управления софтом. Иначе помимо проблемы распознавания команд придётся решать проблему взаимодействия с железом. Я об этом в самом начале написал.
Кроме того, количество людей, которым интересно управлять софтом значительно больше, чем интересующихся управлением светом. Да и портировать либу, когда она уже будет написана и отлажена особых проблем не составит.

unikoid
#89 - 01.02.2010 - 20:26

Я конечно не в тему, но насчет голосового управления, можно посмотреть, что используется в Xandros из EEE PC. Там оно более-менее работало. При том слова, которые задают команду нужно было вводить с клавы, емнип, а не говорить.
>так что он может стать вполне востребованным на смартфонах и недобуках(хотя можь там уже есть проприетарные аналоги).
На моих Nokia N70 и Asus EEE PC 900 (Linux) было из коробки. Качество оценить трудно, ибо скорее не система подстраивается под тебя, а наоборот, т. е. проще самому запомнить интонацию на произнесенном сэмпле для какого-то действия, чем научить систему распознавать разные.

Grem
#90 - 02.02.2010 - 00:04

я считаю, что нужно вначале обеспечить хардварную часть, низкоуровнее управление интерфейсами, обработки запросов, а потом уже писать всё остальное.

Циник
#91 - 02.02.2010 - 08:46

@unikoid,
>На моих Nokia N70 и Asus EEE PC 900 (Linux) было из коробки
опенсорс или как всегда? Если вдруг опен, то ссылочку можно?

Циник
#92 - 02.02.2010 - 11:32

http://www.ibash.org.ru/quote.php?id=12174
однако, кто-то это уже сделал.

unikoid
#93 - 02.02.2010 - 15:11

>>На моих Nokia N70 и Asus EEE PC 900 (Linux) было из коробки
опенсорс или как всегда? Если вдруг опен, то ссылочку можно?
На нокии однозначно нет, а вот на Asus'e - возможно. Если удастся на недельке развернуть образ с дистрибом на виртуалку и глянуть, что там за софтина - отпишусь.

unikoid
#94 - 02.02.2010 - 15:13

http://en.wikipedia.org/wiki/Speech_recognition_in_Linux

Malefic
#95 - 04.02.2010 - 10:28

unikoid, спс!

RoadRunnеr
#96 - 04.02.2010 - 12:31

Вах! Коллега купил Lenovo S10-2 (нетбук, по-моему) с камерой и фичей распознавания лица - можно, ей пользуясь, авторизацию сделать. Довольно быстро и точно работает. Я для теста очки не снимал - меня даже через очки зарегистрировало и впоследствии определило. Еще более впечатляет то, что я снял очки, и система меня все равно определила.

Asterozoa
#97 - 04.02.2010 - 12:57

Хы

RoadRunnеr
#98 - 04.02.2010 - 13:28

Правда, система затруднялась сделать снимки, поскольку коллеги активно строили мне
"рожки" и "ушки"... В этом она пока слабовата! :)

А вообще, очень интересно, как человек распознает объекты. Ему достаточно мельком взглянуть на затертую фотографию, и он увидт на ней и деревья, и постройки, и людей - в общем, все, что изображено. При этом, совершенно не обязательно человеку знать на память все марки автомобилей или все типи архитектурных сооружений - он легко отличит машину от сугроба или стога сена, человека - от растущего рядом разлапистого дерева. КАК?!

Циник
#99 - 04.02.2010 - 13:45

нейронная сеть

Asterozoa
#100 - 04.02.2010 - 17:30

Громадный объем памяти в придачу к мощнейшей нейросети. Все же сравнивается, вы же, например, увидев впервые автомобиль неизвестной марки сбоку , не сможете высчитать как он будет выглядеть спереди, плюс возможность ассоциативного мышления- кузов, окна и четыре колеса- вы воспримете это как транспорт, независимо, видели ли вы тс той же марки либо другой.
К списку вопросовСтраницы: 1 2 3 >

Быстрый ответ
Имя:      Пароль:    
Текст сообщения:

«ibash.org.ru — Новый цитатник Рунета» Почта вебмастера: imail@ibash.org.ru