Il y a quelques jours j'ai vu un courrier sur la façon dont installer un SweaveR, qui tiendrait compte pour qu'un utilisateur exporte directement des choses comme des tableaux, des graphiques, etc. dans le latex. Je ne pourrais pas tout à fait suivre les directions.
Est-ce que n'importe qui peut donner des instructions étape-par-étape sur la façon dont le faire sur chacun des deux, Mac et Windows ?
Ma question de travail :
Un inspecteur suspecte que la nourriture dans l'usine qu'elle inspecte ait été souillée avec un produit chimique nocif C. Une telle contamination chimique se produit dans 5% d'usines produisant cette nourriture. L'inspecteur a un essai A pour le produit chimique qui enregistre le positif avec la certitude 100% quand le produit chimique est présent, mais l'essai enregistre également le positif dans 10% de cas où le produit chimique n'est pas présent. Elle décide d'employer cet essai pour l'aider à décider s'il y a de contamination.
- Supposez que la probabilité antérieure de la contamination est égale au taux de base, et que l'essai de l'inspecteur donne un résultat positif. Calculez la probabilité postérieure de la contamination.
- L'inspecteur a un autre essai B pour le produit chimique c qui enregistre seulement le positif 50% du moment où c est présent, mais a l'avantage de ne jamais donner un faux positif (c.-à-d., si c n'est pas présent, l'essai n'indiquera jamais qu'il est). Les résultats des deux essais, A et B, sont indépendant donné la présence ou absence de C. Il s'avère qui quand l'inspecteur emploie l'essai B, les résultats sont négatif. En outre, l'inspecteur sait que l'usine est mal maintenue. Le taux de contamination dans les usines avec l'entretien pauvre est deux fois plus haut que le taux dans les usines en général. Calculez la probabilité postérieure de la contamination.
Je sais que ceux-ci devraient être plutôt fondamentaux, mais je me coince. Pour #1 j'ai atteint une réponse, mais je ne suis pas sûr il est correct :
Utilisant la règle de Bayes la probabilité devrait être
$P (c|= de positif) \ frac {P (positif|c) P (c)} {P (positif)}$
Maintenant je pense que $P $ (positif) devrait être :
$P (positif) = P (positif, c)+P (, de positif \ négatif c) = P (positif|c) P (c) + P (positif|\ c négatif) P (\ c)$ négatif
Ainsi :
$P (c|= de positif) \ frac {P (positif|c) P (c)} {P (positif|c) P (c) + P (positif|\ négatif c) P (\ négatif c)} $
$P (c|= de positif) \ frac {1 * 0,05} {1 * 0,05 + 0,1 * 0,95} = 0,34$
Est-il ce correct ?
En partie #2 I a pensé puisqu'ils sont censés être indépendants ceci doivent se tenir :
$ P (A_ {positif} \ chapeau B_ {négatif}|c) = P (A_ {positif}|c)*P (B_ {négatif}|c) $
D'abord j'ai ajusté le taux de base et ai recalculé #1 :
$P (c|= d'A_ {positif}) \ frac {1 * 0,1} {1 * 0,1 + 0,1 * 0,9} = 0,52$
Les questions indique : « les résultats sont négatifs ». Ainsi B devrait être :
$P (c|= de B_ {négatif}) \ frac {P (B_ {négatif}|c) P (c)} {P (B_ {négatif}|c) P (c) + P (B_ {négatif}|\ = du négatif c) P (\ négatif c)} \ frac {0,5 * 0,1} {0,5 * 0,1 + 1 * 0,9} = 0,05$
$ P(c|A_{positive} \cap B_{negative}) = \frac{P(A_{positive} \cap B_{negative}|c) * P(c)}{P(A_{positive} \cap B_{negative})} = \frac{P(A_{positive}|c) * P(B_{negative}|c) * P(c)}{P(A_{positive} \cap B_{negative})} $
What should I do next?
Donne-t-il un cadre de données dans R une manière de l'exporter en syntaxe de R tels que l'exécution de ce code recréerait le cadre de données ? Je trouverais ceci utile pour stocker des résultats dans des dossiers de R avec des calculs sans selon les dossiers externes.
M ou millimètre ? Je préfère « M » -- il est plus court, mais quelqu'un ici poussait le « millimètre ».
Je recherche actuellement quelques techniques de recherche documentaire.
J'ai une table de base de données de SQL contenir des ficelles. Elle a 1000 disques, chacun qui est une phrase aléatoire que j'ai sélectionnée des sites Web aléatoires. Je dois obtenir la fréquence des termes et représenter chaque ficelle dans un vecteur. Je dois également grouper les disques, par exemple utilisant des k-moyens.
Est-ce que n'importe qui sait ce qui est la meilleure manière de faire ceci ? Y a-t-il des outils que je peux utiliser ? Je suis nouveau à ceci et recherchant un saut outre du point.
J'essaye de prévoir utilisant ARIMAX avec deux variables exogènes (d'entrée). J'emploie PROC ARIMA, mais je ne peux pas figurer de la documentation de SAS si mon code produit la paramétrisation que je veux.
Je veux prolonger des 12,1) modèles d'ARI (de sorte qu'il inclue également les 12 derniers termes de chacune des deux variables exogènes dans ma prévision. Ainsi, utilisant VariableX avec les deux variables exogènes VariableY et VariableZ, ma meilleure tentative de code est :
proc arima;
identify var=VariableY(1) nlag=24;
estimate p=12;
identify var=VariableZ(1) nlag=24;
estimate p=12;
identify var=VariableX(1) nlag=24 crosscorr=( VariableY(1) VariableZ(1) );
estimate p=12 input=( VariableY VariableZ );
forecast id=MonthNumber interval=month alpha=.05 lead=24;
run;
quit;
La documentation me mène croire que les quatre premières lignes de la procédure sont exigées pour installer la prévision à l'extrémité. Mais quand je cours la procédure, la production semble montrer une prévision utilisant seulement la dernière période de chacune des deux variables exogènes.
En résumé, je voudrais être sûr où chacune du suivant est commandée :
- Le $p$ de $AR (p)$, et pareillement pour chacune des variables exogènes
- Le $d$ de $I (d)$, et pareillement pour chacune des variables exogènes
- Le $q$ de $MA (q)$, et pareillement pour chacune des variables exogènes
J'ai employé une grande sélection d'essais pour mes données de thèse, d'ANOVAs paramétrique et t-essais aux essais et le Mann-Whitneys non paramétriques de Kruskal-Wallis, aussi bien que grade-ai transformé ANOVAs bidirectionnel, et GzLMs avec la binaire, le Poisson et les données proportionnelles. Maintenant je dois rapporter tout pendant que j'écris toute la ceci dans mes résultats.
J'ai déjà demandé ici comment rapporter des intervalles de confiance asymétriques pour des données de proportion. Je sais que l'écart type, l'erreur type ou les intervalles de confiance sont appropriés pour des moyens, est qui ce que je rapporterais si tous mes essais étaient bien paramétriques. Est-ce que cependant, pour mes essais non paramétriques, je devrais rapporter des médianes et pas des moyens ? Est-ce que si oui, quelle erreur je rapporterais avec elle ?
Est associé à ceci comment mieux présenter des résultats d'essai non paramétriques en forme de graphiques. Puisque j'ai en grande partie des données continues ou d'intervalle dans des catégories, j'emploie généralement des barres analogiques, avec le dessus de la barre étant les barres de moyen et d'erreur montrant ci de 95%. Pour des essais du NP, peut je néanmoins emploient des barres analogiques, mais faire représenter le dessus de la barre la médiane ?
Merci pour vos suggestions !
J'ai reçu une question aujourd'hui que je n'étais pas exactement sûr comment répondre.
J'ai établi un modèle prévisionnel utilisant une régression logistique assez fondamentale qui fonctionne assez bien et adapte nos besoins d'affaires. Récemment, nous avons acheté un outil de CRM qui nous permet de construire des scores de « probabilité », mais permettons seulement aux utilisateurs de donner des poids de nombre entier à de divers facteurs. A dit différemment, un peut arbitrairement assigner un poids de 10 points à d'un facteur et à de -5 points à l'autre avec la somme de tous les poids représentant la « probabilité » pour une entité donnée dans notre base de données.
Ce que je regarde pour faire est de traduire mon modèle à ce nouveau format tels que le score en résultant égale la probabilité calculée de mon modèle logistique. Ce n'est pas hors du désir, mais des besoins d'affaires.
Évidemment je ne suis pas sûr comment employer les coefficients calculés et « ajustez- » les sur ces conditions. Quelle est la meilleure approche, si ? Pensées générales sur la façon dont assigner statistiquement les poids valides de nombre entier aux critères d'affaires donnés ces contraintes ?
N'importe quelles pensées ou analyse seront tout d'abord appréciées.
Bonjour,
J'ai des articles qui ont une position Geo-spatiale et une origine temporelle. Pour les deux dimensions, je construis des groupes jusqu'ici.
Je suis maintenant à la recherche d'une manière de fusionner ce différents groupes formant les groupes spatio-temporels. Naturellement, je veux empêcher calculer les groupes complètement nouveaux de l'éraflure et employer plutôt l'information existante par le groupement précédent.
Y a-t-il un algorithme comment construire les groupes 3d en fusionnant un 1d précédent et un 2d processus de groupement ?
Merci !
Je développe une application dans laquelle les utilisateurs peuvent créer les « sections » (subreddit de La d'à dans le reddit), dans lesquelles des articles/courriers peuvent être créés et être votés avec des pouces-/vers le bas système.
Un grand article m'a guidé sur la façon dont assortir ces votes de sorte qu'un article avec une réaction favorable de 100% mais avec peu de votes n'obtienne pas rangé plus d'un avec des centaines de votes et d'une acceptation de 80%. L'article le décrit assez bien.
Cependant, je voudrais jeter les articles bas-rangés et c'est où il obtient délicat :
- Comment est-ce que je pourrais connaître le nombre minimal de votes afin de le jeter ?
- Que l'écart exigé par seuil du score est-il l'article ?
Comme j'ai dit, il y a des sections, et chacun a les articles (qui sont ceux votés). La formule doit prendre en compte le fait qu'une section peut avoir 100 articles avec des milliers de votes et des autres pourraient avoir 3 ou 4 articles avec 20 votes, ainsi un minimum de 40 votes exigés pourraient être optimaux pour le premier point de droit mais totalement hors des limites pour le deuxième.
(J'ai été tenté en signalant ceci à MathOverflow, mais je ne suis pas vraiment sûr puisque ceci comporte également la programmation)
Merci !