Re: [uanog] Давайте про политику поговорим (электронная нагрузка избранных блоков питания)
Привет !
Friday, August 2, 2019, 10:45:18 AM, Vladimir Sharun vladimir.sharun@ukr.net you wrote:
VS> Предоставленный Вами url цен не содержит и я туда написал еще до UANOG
ну я не их дилер :-)
просто они светятся с "нагрузками", а больше я не видел подобного в
Украине.
VS> Учитывая их стоимость, меня посетила мысль, что у нас в стране
VS> кто-то занимается сервисом измерения параметров БП.
нет.
Это единичные продажи, причем "раз в два года", а разработчикам кушать
надо,
поэтому за разовые проекты обычно никто не бедется, а если и берется
то за очень большие деньги.
Ну и наивность выключайте: РАЗРАБОТКИ стоит очень дорого, а потом ее
размазывают на "Обьем продаж".
Если обьема продаж у впор не видно - то никто не станет ничего делать
у нас. Такая вот жисть...
Я сам не стану ради одного девайса тратить несколько месяцев своей
жизни, да еще и чтобы его потом продать всего один раз и за 2500
долларов :-)
VS> У стандарта ATX есть допуски по напряжению и по риплу - мне надо
VS> понять, как они меняются от возраста и в каком состоянии
VS> относительно "новый" находятся.
тю...
Это и тебе могу сказать сейчас и сразу - БП имеют главную пробему -
конденсаторы-электролиты. Высыхание из-за перегрева и "лов ЕСР",
которое приводит к повышенному разогреву. Так что если у тебя в БП не
стоит кондесаторов с пометкой "рассчитаны(!) на 5000 часов работы" то
ты попал :-) Старые БП надо просто менять электролиты и получишь "как
новые".
Ну и дешовые модели БП там стоят непойми чего кондеры электролиты, у
них LowESR параметр может быть в Омах (а должен быть в десятых или
сотых Ома). Так вот они нифига не фильтруют. И стареют быстро.
VS> Могут ли БП выдавать паспортные параметры мощности по линиям в
VS> рамках стандарта (желательно лучше, чем стандарт).
Если руки из нужного места - то просто бзяв БП с средними параметрами
и заменив все кондеры на Low ESR проверенные и низкие, ты автоматом
попадаешь в "нужные параметры".
Цепи управления в БП везде одинаковые, китайцы не строят супер сложные
схемы. До сих пор на TL микросхемах еше встречаются БП...
Я бы просто менял БП на новые где можно, а старые перепаивал кондеры -
если есть время и терпение :) Медь не стареет, и магнитопроводы если
не бить - тоже.
VS> 2 серпня 2019, 09:10:26, від "Alexander V Soroka"
Александр Васильевич,
К сожалению, я придерживаюсь подхода "сначала думать, потом делать". По-этому немотивированные "проактивные" перепайки конденсаторов, когда необходимость действовать не доказана - это противоречит моему подходу.
Учитывая, что у меня сотни БП, то измерительный стенд с сэмплированием по дате помог бы показать общую картину по БП.
Наработка на отказ серверных БП - 130 тыс часов (или 15 лет непрерывной работы) при условии эксплуатации в датацентрах (22-25С и влажность/пыль соотв).
Мы с Вами очень хорошо усвоили метрологию, чтобы понимать, что "наработка на отказ" - это та точка на абсциссе времени экспулатации кривой отказа, после которой вероятность отказа (отказ от износа) превышает какой-то процент приборов, который задумал производитель (сколько?).
На практике, и это Вам хорошо известно по АКБ со свинцом, срок жизни прибора (АКБ, БП) - это не константа по показателям, а какая-то кривая показателей, ухудшающаяся в процессе времени.
Если взять сервер с двумя одинаковыми БП, которые с большой вероятностью из одной партии, то с большой вероятностью, что и изнашиваются они одинаково и могут пшикнуть залпом или очередью.
Моя статистика внезапных эксплуатационных отказов показывает, что БП - это номер два после шпиндельных в структуре отказывающих устройств.
А учитывая, что прогнозирование пшика шпиндельных - это давно пройденный этап, очень логичное желание - научиться прогнозировать то же самое и для БП или доказать, что внезапный эксплуатацинный отказ на первых 12 годах жизни - это единственный случай выхода из строя и париться нечего.
Как-то так.
Очень интересная дискуссия получается.
2 серпня 2019, 11:45:45, від "Alexander V Soroka"
On Aug 2, 2019, at 12:10, Vladimir Sharun
wrote:
HI!
А учитывая, что прогнозирование пшика шпиндельных - это давно пройденный этап, очень логичное желание - научиться прогнозировать то же самое и для БП или доказать, что внезапный эксплуатацинный отказ на первых 12 годах жизни - это единственный случай выхода из строя и париться нечего.
А можно поинтересоваться, а какими критериями пользуетесь для прогнозирования наработки на отказ?
_______________________________________________ uanog mailing list uanog@uanog.kiev.ua https://mailman.uanog.kiev.ua/mailman/listinfo/uanog
-- Taras Heichenko tasic@academ.kiev.ua
Привет,
Динамика негативных показателей. А в гелиевых винтах еще аттрибут добавился - атмосферный датчик внутри.
Всё что надо - постоянно следить за ними в динамике и когда переходят комфортный для вас предел по ошибкам чтения, интерфейсным ошибкам, релокейтам (не надо ждать FAILING NOW) - менять. Бывает что может скакнуть и остановиться - это норма. Вот если скакнул-пауза-скакнул-пауза, то третьего "скакнул" лучше не ждать.
Надо помнить, что винты дохнут просто от операций с ними (чтение и запись), соотв можно спрогнозировать по паттерну операций для вашего конкретного винта, через сколько он выйдет из строя. Это кстати еще и функция температуры, если меньше 17 или больше 30 - добавь еще 10-25% негативности прогноза. Корпорейт винт может выдержать 60Гб в час (чтений и записей суммарно) в течении 5 лет. Если у вас часовые нагрузки выше - вероятность внезапного эксплуатационного отказа резко возрастает. Для десктопа этот показатель - треть от энтерпрайза.
Энтерпрайз винты и десктопы отличаются физически: у них разные головки чтения и записи. У энт. чуть больше датчиков и они ТЯЖЕЛЕЕ :-)
Хорошая статья про это была на overclockers.ua, которая в целом мой опыт практический суммаризирует.
2 серпня 2019, 12:39:21, від "Taras Heichenko"
On Aug 2, 2019, at 12:10, Vladimir Sharun
wrote:
HI!
А учитывая, что прогнозирование пшика шпиндельных - это давно пройденный этап, очень логичное желание - научиться прогнозировать то же самое и для БП или доказать, что внезапный эксплуатацинный отказ на первых 12 годах жизни - это единственный случай выхода из строя и париться нечего.
А можно поинтересоваться, а какими критериями пользуетесь для прогнозирования наработки на отказ?
Привет !
Friday, August 2, 2019, 12:10:33 PM, Vladimir Sharun vladimir.sharun@ukr.net you wrote:
VS> Наработка на отказ серверных БП - 130 тыс часов (или 15 лет
VS> непрерывной работы) при условии эксплуатации в датацентрах (22-25С и влажность/пыль соотв).
15 лет это бессмысленный параметр.
Для современных процессоров срок в 5 лет уже приводит к увеличению
отказов (мелкие отказы - "интенсивность отказов" при работе программ).
Так что 15 лет для БП это занадто, если ЦП не более 5-6 лет
проработает.
Напочитать:
https://ispytano.ru/-page_page_11459
https://www.hardwareluxx.ru/index.php/news/hardware/prozessoren/36262-softwa...
https://habr.com/ru/post/358342/
VS> Моя статистика внезапных эксплуатационных отказов показывает, что
VS> БП - это номер два после шпиндельных в структуре отказывающих устройств.
а SSD тоже не панацея. сейчас NAND память (которая внутри) рассчитана
в среднем на 1000 перезаписей. Спасает "диски" пока что только то,
что "внутренний софт" не долбит в одни и те же области а
"размазывает" производительность(ресурс) по всем ячейкам.
https://ru.wikipedia.org/wiki/%D0%A4%D0%BB%D0%B5%D1%88-%D0%BF%D0%B0%D0%BC%D1...
Даже осуществление большого числа (сотни тысяч и более) операций чтения без перезаписи
может ускорить возникновение ошибки :-)...
VS> пройденный этап, очень логичное желание - научиться прогнозировать
VS> то же самое и для БП или доказать, что внезапный эксплуатацинный
VS> отказ на первых 12 годах жизни - это единственный случай выхода из строя и париться нечего.
бессмысленное занятие, это я про 12 лет...
Решение простое: ЕСЛИ у тебя на входном контроле в БП нет всех(!)
конденсаторов внутри с ресурсом более 5000 часов ( а это всего 208 суток)
то можешь там что угодно думать про "12 лет" :-) ...
А если у тебя БП из раздела "ХЗ кто там че напял" то там от силы 1000
часов кондеры, я всех поздравляю.
Совет от меня: ставить БП с сильным запасом, например на 1000ватт
потребляемого сразу ставить БП на 1500-1800 ватт, это даст недогрузку
и работу в щадящих режимах БП, и старение БП будет идти медленнее, вот
и автоматом получишь свои "12 лет" , без всяких плясок с проверками.
Почему так ? да потому что все экономят - и БП при правильном
проектировании рассчитаны на "номинал" практически без запаса по
мощности, разве что "пикове выюросы" нагрузки могут перенести в
милисекундах. Так и тепловыделение считают - а если там запас по
мощности 50% то это приведет что и без охлаждения БП будет холодным, и
нечему там напрягаться.
VS> 2 серпня 2019, 11:45:45, від "Alexander V Soroka"
Александр Васильевич, У меня в эксплуатации есть сервера 2004 и 2006 годов выпуска. Интереса ради прогоняли на них сутки Prime95 - никаких проблем, зависаний, крэшей или перегревов. Т.е. ваша теория - это очень теория.
15 лет это бессмысленный параметр. Для современных процессоров срок в 5 лет уже приводит к увеличению отказов (мелкие отказы - "интенсивность отказов" при работе программ). Так что 15 лет для БП это занадто, если ЦП не более 5-6 лет проработает.
Весьма несложно, учитывая унификацию, заменить начинку и оставить старый корпус (с бэкплейнами всеми, винтами и прочими ssd и сетевушками) и поставить более быстрый проц/память/материнку, сэкономив $800 - 1900 на шасси с БП например. Если спроецировать это на сотню серверов, то получается, весьма существенная разница.
Из условных неопределенностей остаётся только БП, которые меня и интересуют.
Супермикра говорит, что их КИТАЙСКИЕ ДЕШЕВЫЕ БП с оф сертификацией Gold-Platinum-Titanium - 130 тыс часов на отказ.
Я и хочу понять, как в течении времени меняются показатели БП, что с ними происходит от старения.
Не теоретически (блджад!), а практически.
Мне интересно вот и всё.Любопытство.
А обладая стендом, можно померять, как чухают себя БП десктопные (дорогие, хз хорошие ли), в зависимости от условий эксплуатации.
Многие исследователи делают деревянно: в качестве нагрузки берут эталонный, выверенный БП и выверенную нагрузку в виде материнки-проца-пары видеокарт. На которых в идентичных условиях запускают идентичные (например) майнинговые процедуры.
Так можно прогреть БП до 800Вт включительно, увидеть как влияет нагрузка на 12В на линии 3.3 и 5В (-12 и -5 - неинтересно, через них ничего существенного не работает), что происходит с рипплом и, используя +/- точный ваттметр - понять КПД БП
2 серпня 2019, 12:43:22, від "Alexander V Soroka"
Привет !
Friday, August 2, 2019, 1:04:54 PM, Vladimir Sharun vladimir.sharun@ukr.net you wrote:
VS> Интереса ради прогоняли на них сутки Prime95 - никаких проблем,
VS> зависаний, крэшей или перегревов.
VS> Т.е. ваша теория - это очень теория.
почитай тогда про то как на кремнии при 14нм процессе оставляют "места
для диффузии", если не веришь.
Поможет "прочистить мозги". :-)
есть понятие "диффузия металла", так вот чем меньше расстояния в
кремнии - тем быстрее "прорастет" между дорожками, особенно если гонять
с перегревами.
Ну и просто сам по себе процессор лежащий на столе тоже
"диффундирует".
https://habr.com/ru/post/457952/
В микроконтроллерах, например, в даташитах прямо пишут - при какой
температуре сколько лет "до отказа". Но там совсем не 14нм процесс -
потому и 20 лет работают.
VS> Из условных неопределенностей остаётся только БП, которые меня и интересуют.
VS> Супермикра говорит, что их КИТАЙСКИЕ ДЕШЕВЫЕ БП с оф
VS> сертификацией Gold-Platinum-Titanium - 130 тыс часов на отказ.
VS> Я и хочу понять, как в течении времени меняются показатели БП,
VS> что с ними происходит от старения.
VS> Не теоретически (блджад!), а практически.
Я уже ответил что именно стареет в БП.
Медь не стареет, но Обмотки трасов - если трасы не пропитаны лаком(!)
перетираются от магнитострикции (я такое видел). Так что если БП
"звучит" то это повод его не покупать.
И самое главное - это именно электролитические конденсаторы.
При высыхании они сами могут стать резисторами и воровать энергию, при
этом ничего не аккумулируя. И не обязательно они будут вздутыми.
Электролиты - это самое тонкое место.
Качество электролитов влияет и на "джиттеры" и на пульсации и вообще
на всё. Высох конденсатор - получи букет проблем.
VS> Многие исследователи делают деревянно: в качестве нагрузки берут
VS> эталонный, выверенный БП и выверенную нагрузку в виде
VS> материнки-проца-пары видеокарт. На которых в идентичных условиях
VS> запускают идентичные (например) майнинговые процедуры.
Это плохой путь :-)
ТОЛЬКО нагрузка активная и постоянная (перетираем электричество в
тепло) может дать точный ответ.
VS> Так можно прогреть БП до 800Вт включительно, увидеть как влияет
VS> нагрузка на 12В на линии 3.3 и 5В (-12 и -5 - неинтересно, через
VS> них ничего существенного не работает), что происходит с рипплом и,
VS> используя +/- точный ваттметр - понять КПД БП
КПД БП можно понять сразу, ничего этого не делая.
Если БП на TL494 - то там от силы 79-82%, потому что классика
обратнохода, и тупое управление.
Если хочешь иметь 90-98% КПД - сразу спрашивай у производителя БП - у
вас внутри есть СИНХРОННЫЙ выпрямитель?
Есть - хорошо! Нет - значит там тупо 80% реальных. Что бы не писали.
Второй вопрос: у вас преобразователь квазирезонансный? Если такого
слова не знают - значит там классика и вранье про 85%.
Идеально - БП с синхронным резонансным преобразованием и с обратной
связью синхронного управления. Микросхемы есть такие. 95-98% дают КПД
Но мне не известны БП с такими раскладами внутри.
Я сам проектировал и строю квазирезонансные БП на обратноходах с
синхронным выпрямлением во вторичке. Потому что на 20-30Ампер
"классика" уже греется шо дурная.
VS> 2 серпня 2019, 12:43:22, від "Alexander V Soroka"
Привет,
• Longevity is guesswork. Most advanced semiconductors are reliable enough for devices that last two years. Some of them could last 50 years. But the reality is that no one knows what problems will erupt with 16/14nm chips, or whether they’re better than 10nm chips, because dynamic power density is a new challenge. Even 28nm has only recently become a mainstream node for development. And as new technologies such as finFETs, gate-all-around FETs, new materials, new interconnects such as through-silicon vias, and new processes are introduced, there are always uncertainties.
• Use cases matter. As semiconductors become more complex, it becomes more difficult to find all of the bugs. Some of those may be use-case dependent, which makes the definition of reliability not only unique for each device, but unique for each user. With more components competing for memory, multiple voltage islands, blocks being turned on and off, and much more software and firmware, the usable lifespan of a chip looks more like a bell curve than a fixed number.
Александр Васильевич, Вы уже тот самый "no one", who knows ?
2 серпня 2019, 13:39:14, від "Alexander V Soroka"
Привет !
Friday, August 2, 2019, 2:06:35 PM, Vladimir Sharun vladimir.sharun@ukr.net you wrote:
VS> Александр Васильевич, Вы уже тот самый "no one", who knows ?
:-)
Прежде чем со мной спорить, нужно знать чуть больше чем я.
И не только знать то что в Википедии написано :-)
Так вот, при поектировании АБСОЛЮТНО всех СБИС и процессоров,
используется Знание о том как будет проистекать диффузия внутри
кремниевой пластины. И поэтому есть "минимальные расстояния" и есть
отдельные защитные интервалы. Про это написано много разных
диссертаций и очень толстых книг в разделе "Проектирование
интегральных микросхем".
Почему диффузия ? да потому что диффузионными методами сейчас
делают эти самые "транзисторы 14нм" из которых состоят Процессоры.
Вот популярная статья:
https://habr.com/ru/post/423575/
Цитата:
"...Очевидный минус диффузии — то, что примесь проникает в кремний во
всех направлениях одинаково..."
Напомню что Процессор это несколько слев, в т.ч. напыляемых, и если
напыление еще как-то контролируется, то вот внесение диффузии куда-то
кроме "пластины подложки" может вызывать много вопросов.
Так что "вероятные отказы" из-за КЗ между "проросшими частицами
металла" внутри одного из сотен миллионов транзисторов - не такоеуж и
редкое явление.
Отсюда и "нарастание ошибок" при работе - т.е. глюки со временем
работы полупроводников Процессоров.
Могу привести пример по Атмел - при строгом соблюдении температуры в
20-25С производитель отвечает за 80 лет (!) работы чипа.
А при превышении - до 80С - обещает работу не более 20 лет :-)
...непонятно как реализуется эта самая "будет работать 20 лет" и как
предьявить претензию, но сам факт есть - в даташите на чип указано
это.
И напомню - микроконтроллеры Атмел имеют древние размеры "технологии",
там 14нм и не пахло, там по моему 85 или 130нм.
VS> 2 серпня 2019, 13:39:14, від "Alexander V Soroka"
Александр Васильевич,
Примените пож могучую диффузную теорию на практике - дайте число, утолите голод любопытства: как это всё транслируется в практику: сколько времени проживёт процессор 14нм++, непрерывно эксплуатируемый при температуре силикона в 70С ?
2 серпня 2019, 15:26:18, від "Alexander V Soroka"
Hi!
2 авг. 2019 г., в 15:26, Alexander V Soroka
написал(а): Могу привести пример по Атмел - при строгом соблюдении температуры в 20-25С производитель отвечает за 80 лет (!) работы чипа. А при превышении - до 80С - обещает работу не более 20 лет :-) ...непонятно как реализуется эта самая "будет работать 20 лет" и как предьявить претензию, но сам факт есть - в даташите на чип указано это. И напомню - микроконтроллеры Атмел имеют древние размеры "технологии", там 14нм и не пахло, там по моему 85 или 130нм.
Вроде как все это было для флэш-памяти, которая устанавливается в микроконтроллеры Atmel, про сами процессоры речи не было, хотя наверняка и там зависимость есть, но, на фоне флэша, на это уже можно забить. -- Victor Cheburkin VC319-RIPE, VC1-UANIC
Привет,
Александр Васильевич, из описанных Вами проблем с SSD, в современной жизни последние 5 лет ни одна не встречается - это уже миф.
Износ ССД легко прогнозируется. И размер и модель подбираются, исходя из паттерна предполагаемой нагрузки (который элементарно фиксируется на стенде).
Сейчас в ssd размер - это не "сколько надо держать записанным", а "какой overprovisioning необходимо дать твоему паттерну нагрузки, учитывая объём необходимого хранимого".
2 серпня 2019, 12:43:22, від "Alexander V Soroka"
Год назад заменил в рейде два ссд-эшника на млц-памяти, на них лежала база скульная 200 гигов, диски были по 500. Заменил, потому что очень сильно просела скорость. Смарт сказал, что диски исчерпали свой ресурс на 146%. Помоему этого параметра достаточно, чтобы диск заменить превентивно. Диски в рейде заменил на новые, а старые прогнал официальной тулзой - сделал фулл эрейз. Сейчас их пользую для виртуалок тестовых на своей машине - мне просто их потеря вообще не критична, так они вообще без проблем работают, уже больше года прошло. По нынешним временам железо делают говеное - нет смысла делать дорогое, все равно срок службы условные 5 лет. Как следствие и системы делают таким образом, чтобы потеря одной машины не приводила к краху всей системы и точно не приводила к безвозвратной потере данных.
participants (5)
-
Alexander V Soroka
-
Taras Heichenko
-
VASYL MELNYK
-
Victor Cheburkin
-
Vladimir Sharun